应用错误收集

Python PDF文本提取 - 无法使用pdfminer / textract从特定文档中提取

时间：2018-03-23 23:15:42

标签： python pdf text extraction pdf-scraping

我正在使用Python来完成一个项目，该项目涉及从许多PDF文档中提取文本，有趣的是我遇到了一个无法通过以下任何一个项目解析的文档：

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

实际上，即使命令行工具pdftotext也无法从文档中提取文本。它首先打印文本，然后在提取约2分钟后继续打印垃圾。

该文件可在此处找到：https://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对两种解决方案中的一种感兴趣：

我怎样才能实现从Python文档中提取文本的目标？
我怎么能一般地检测这样的文件，所以我可以避免试图完全解析它们？

这些解决方案都是理想的，所以提前感谢！

1 个答案:

答案 0 :(得分：0)

我在win10下使用Jupyter和Python 3.6。在这种情况下，我必须使用 pdfminer.six 。

这些天我不得不重新安装。 This对我来说仍然有用