应用错误收集

阅读python中的所有类型的文件

时间：2017-05-25 11:16:18

标签： python pdf pypdf pdfminer pypdf2

我正在尝试从python（.pdf .doc .docx）中的不同类型的文件中提取信息并转换为.txt，但在处理不同的文件时，我在不需要时会获得空格和换行以及许多其他问题。我已经尝试过PyPDF2和PDF管理器。请告诉我一些可以从文件中提取信息的东西。

修改

目前正在寻找可以帮助我从.pdf文件中提取精确文本的内容。我已经尝试了PyPDF，PDFMiner和PDF Manager，我在所有这些中都遇到了一些pdf的问题。

1 个答案:

答案 0 :(得分：2)

就我个人而言，我认为pdfminer是从pdfs中提取信息的最佳python模块Get it here

我想你可以参考this link 用于相应的文件格式。