我打算在自然语言处理(使用NLTK)上完成我的最后一年项目,我感兴趣的领域是社交媒体网站的评论摘要,例如Facebook。例如,我试图做这样的事情:
图片中的随机Facebook评论:
现在,所有这些评论都会被映射(使用基于模板的评论摘要技术)到这样的:
3个人觉得这张照片很漂亮"。
输出将包含 " beautiful" 这个词,因为它在评论中比 更常用"漂亮" (以及美丽和漂亮是同义词的事实)。为了完成这项任务,我将使用跟踪 等方法关键字频率 和 关键字分数 (在此方案中,"美丽" 和"漂亮" 得分非常接近)。 这是最好的方法吗?
到目前为止,在我的研究中,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:
该领域的其他哪些论文涉及类似问题?
除此之外,我还希望我的摘要生成器能够改进每个摘要任务。如何在这方面应用 机器学习 ?
答案 0 :(得分:8)
主题模型聚类是您正在寻找的。 p>
在Google学者上搜索"主题模型群集将为您提供有关主题模型群集的大量参考。
要理解它们,除了机器学习的基础知识之外,您还需要熟悉以下任务的方法。