阅读python中的所有类型的文件

时间:2017-05-25 11:16:18

标签: python pdf pypdf pdfminer pypdf2

我正在尝试从python(.pdf .doc .docx)中的不同类型的文件中提取信息并转换为.txt,但在处理不同的文件时,我在不需要时会获得空格和换行以及许多其他问题。我已经尝试过PyPDF2和PDF管理器。请告诉我一些可以从文件中提取信息的东西。

修改

目前正在寻找可以帮助我从.pdf文件中提取精确文本的内容。我已经尝试了PyPDF,PDFMiner和PDF Manager,我在所有这些中都遇到了一些pdf的问题。

1 个答案:

答案 0 :(得分:2)

就我个人而言,我认为pdfminer是从pdfs中提取信息的最佳python模块Get it here

我想你可以参考this link 用于相应的文件格式。