阅读Python的PDF摘要

时间:2019-02-27 11:06:49

标签: python

我正在尝试使用PDF阅读一些Python文档。

我想在第一页中提取一个摘要。

是否存在library个可以做到的事情?

1 个答案:

答案 0 :(得分:0)

您的问题有两个部分:首先,您必须从PDF中提取文本,然后通过摘要程序运行它。

有很多实用程序可以从PDF中提取文本,尽管PDF中的文本可能不会以“逻辑”顺序存储。
(例如,一个具有两个文本列的页面可能存储两列的第一行,然后存储下一行,依此类推;而不是像人类那样存储第一列的所有文本,然后存储第二列阅读。)

PDFMiner library似乎是提取文本的理想选择。一个快速的Google揭示了几个文本摘要生成器python库,尽管我没有使用它们,也无法证明它们的功能。但是解析人类语言非常棘手-即使对于人类也是如此。

https://pypi.org/project/text-summarizer/

http://ai.intelligentonlinetools.com/ml/text-summarization/

如果您使用的是MacOS,则有一个内置的文本摘要服务。右键单击任何选定的文本,然后单击“摘要”以激活。尽管似乎很难将其合并到任何自动化过程中。