总结文本或简化文本

时间:2011-03-29 21:46:29

标签: python nlp text-processing

是否有任何库,最好是在python中,但至少是开源的,可以汇总和/或简化自然语言文本?

7 个答案:

答案 0 :(得分:25)

也许你可以试试sumy。这是我用Python编写的一个非常小的库。实现了Luhn和Edmundson的方法,LSA方法,SumBasic,KL-Sum,LexRank和TextRank算法。它获得Apache2许可,支持捷克语,斯洛伐克语,英语,法语,日语,中文,葡萄牙语,西班牙语和德语。

如果您遗失了某些内容,请随时打开问题或发送拉取请求。

答案 1 :(得分:17)

我不确定目前是否有任何库可以执行此操作,因为文本摘要或至少可理解文本摘要不是通过简单的插件和文件轻松实现的。玩图书馆。

以下是我设法找到的与文本摘要相关的项目/资源的一些链接,以帮助您入门:

希望有所帮助:)

答案 2 :(得分:4)

我也需要同样的东西,但我在 Python 中找不到任何帮助我获得综合结果的东西。

所以我发现这个Web服务非常有用,他们有一个免费的API,它提供了一个JSON结果,我想与你分享。

请在此处查看:http://smmry.com

答案 3 :(得分:2)

不是python,但是MEAD会进行文本摘要(它在Perl中)。通常出来的是可理解的,如果不总是特别流畅的声音。另请查看summarization.com以获取有关文本摘要任务的大量有用信息。

答案 4 :(得分:2)

尝试使用GPL开源许可证发布的Open Text Summarizer。它工作得相当好,但自2007年以来一直没有开发工作。

原始代码是用C语言编写的(包括库和命令行实用程序),但是有多种语言的包装器:

答案 5 :(得分:2)

看看这个article,它详细研究了这些方法和包:

  1. Lex_rank(sumy
  2. LSA(sumy)
  3. Luhn(sumy)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum
  8. 文章的结尾是' summary'。

    sumy @ miso.belica的作者在上面的答案中给出了描述。

    各种其他ML技术已经上升,例如Facebook/NAMAS和Google / TextSum,但仍然需要在Gigaword数据集和大约7000 GPU小时的广泛培训。数据集本身非常昂贵。

    总之,如果您无法使用高端机器,我会说Sumy是目前市场上最好的选择。非常感谢@ miso.belica这个精彩的套餐。

答案 6 :(得分:0)

前段时间,我使用NLTK编写了一个python汇总库,使用了Classifier4J库中的算法。它非常简单,但它可能适合需要汇总的任何人的需求:https://github.com/thavelick/summarize