自动摘要:基于提取

时间:2017-08-08 14:58:47

标签: python nlp summarization

基于提取的自动摘要算法是什么?谷歌很多,找不到任何相关的东西。我想在python上实现算法

2 个答案:

答案 0 :(得分:2)

没有一种基于提取的摘要算法。有几种不同的算法可供选择。您应该选择一个符合您特定需求的产品。

基于提取的摘要有两种方法:

  • 监督学习 - 您可以为程序提供大量文档示例及其关键字。该程序了解关键字的构成。然后你给它一个新文档,这次没有任何关键字,程序根据它在训练阶段学到的内容提取该文档的关键字。有大量的监督学习技巧。仅举几例,有神经网络,决策树,随机森林和支持向量机。

  • 无监督学习 - 您可以简单地为程序提供文档,并创建一个关键字列表,而不依赖于任何过去的经验。基于提取的摘要的一种流行的无监督算法是TextRank。

答案 1 :(得分:0)

首先,我认为你应该更多地了解如何找到论文和研究。如果你没有通过谷歌找到任何东西是绝对不可能的。在任何情况下,一些基于提取的文本summarziation是:

  1. 易于实施基于词频的方法
  2. 贝叶斯方法
  3. 基于图表的方法,例如TextRank / LexRank是一个良好的开端。
  4. 聚类
  5. 用于汇总的模糊系统
  6. 基于神经网络的系统
  7. 我见过基于优化算法的方法 我建议谷歌搜索这些方法,看看你得到了什么。这些有很多变化,我无法确定哪种方法最好。记得找到合适的预处理工具。
    祝好运。