我正在使用Python来完成一个项目,该项目涉及从许多PDF文档中提取文本,有趣的是我遇到了一个无法通过以下任何一个项目解析的文档:
https://github.com/euske/pdfminer/
https://github.com/deanmalmgren/textract
实际上,即使命令行工具pdftotext
也无法从文档中提取文本。它首先打印文本,然后在提取约2分钟后继续打印垃圾。
我对两种解决方案中的一种感兴趣:
这些解决方案都是理想的,所以提前感谢!
答案 0 :(得分:0)
我在win10下使用Jupyter和Python 3.6。在这种情况下,我必须使用 pdfminer.six 。
这些天我不得不重新安装。 This对我来说仍然有用