Python PDF文本提取 - 无法使用pdfminer / textract从特定文档中提取

时间:2018-03-23 23:15:42

标签: python pdf text extraction pdf-scraping

我正在使用Python来完成一个项目,该项目涉及从许多PDF文档中提取文本,有趣的是我遇到了一个无法通过以下任何一个项目解析的文档:

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

实际上,即使命令行工具pdftotext也无法从文档中提取文本。它首先打印文本,然后在提取约2分钟后继续打印垃圾。

该文件可在此处找到:https://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对两种解决方案中的一种感兴趣:

  1. 我怎样才能实现从Python文档中提取文本的目标?
  2. 我怎么能一般地检测这样的文件,所以我可以避免试图完全解析它们?
  3. 这些解决方案都是理想的,所以提前感谢!

1 个答案:

答案 0 :(得分:0)

我在win10下使用Jupyter和Python 3.6。在这种情况下,我必须使用 pdfminer.six

这些天我不得不重新安装。 This对我来说仍然有用