我正在尝试使用PDF
阅读一些Python
文档。
我想在第一页中提取一个摘要。
是否存在library
个可以做到的事情?
答案 0 :(得分:0)
您的问题有两个部分:首先,您必须从PDF中提取文本,然后通过摘要程序运行它。
有很多实用程序可以从PDF中提取文本,尽管PDF中的文本可能不会以“逻辑”顺序存储。
(例如,一个具有两个文本列的页面可能存储两列的第一行,然后存储下一行,依此类推;而不是像人类那样存储第一列的所有文本,然后存储第二列阅读。)
PDFMiner library似乎是提取文本的理想选择。一个快速的Google揭示了几个文本摘要生成器python库,尽管我没有使用它们,也无法证明它们的功能。但是解析人类语言非常棘手-即使对于人类也是如此。
https://pypi.org/project/text-summarizer/
http://ai.intelligentonlinetools.com/ml/text-summarization/
如果您使用的是MacOS,则有一个内置的文本摘要服务。右键单击任何选定的文本,然后单击“摘要”以激活。尽管似乎很难将其合并到任何自动化过程中。