关于评论摘要的NLP项目

时间:2014-10-11 06:59:47

标签: python machine-learning nlp nltk summarization

我打算在自然语言处理(使用NLTK)上完成我的最后一年项目,我感兴趣的领域是社交媒体网站的评论摘要,例如Facebook。例如,我试图做这样的事情:

图片中的随机Facebook评论:

  1. 哇!美丽。
  2. 看起来很漂亮。
  3. 非常漂亮,漂亮的照片。
  4. 现在,所有这些评论都会被映射(使用基于模板的评论摘要技术)到这样的:

    3个人觉得这张照片很漂亮"。

    输出将包含 " beautiful" 这个词,因为它在评论中比 更常用"漂亮" (以及美丽和漂亮是同义词的事实)。为了完成这项任务,我将使用跟踪 等方法关键字频率 关键字分数 (在此方案中,"美丽" "漂亮" 得分非常接近)。 这是最好的方法吗?

    到目前为止,在我的研究中,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

    该领域的其他哪些论文涉及类似问题?

    除此之外,我还希望我的摘要生成器能够改进每个摘要任务。如何在这方面应用 机器学习

1 个答案:

答案 0 :(得分:8)

主题模型聚类是您正在寻找的。

在Google学者上搜索"主题模型群集将为您提供有关主题模型群集的大量参考。

要理解它们,除了机器学习的基础知识之外,您还需要熟悉以下任务的方法。

  1. 聚类:余弦距离聚类,k均值聚类
  2. 排名:PageRank,TF-IDF,互信息增益,最大边际相关性