标签: python pdf pypdf pdfminer pypdf2
我正在尝试从python(.pdf .doc .docx)中的不同类型的文件中提取信息并转换为.txt,但在处理不同的文件时,我在不需要时会获得空格和换行以及许多其他问题。我已经尝试过PyPDF2和PDF管理器。请告诉我一些可以从文件中提取信息的东西。
修改
目前正在寻找可以帮助我从.pdf文件中提取精确文本的内容。我已经尝试了PyPDF,PDFMiner和PDF Manager,我在所有这些中都遇到了一些pdf的问题。
答案 0 :(得分:2)
就我个人而言,我认为pdfminer是从pdfs中提取信息的最佳python模块Get it here
pdfminer
我想你可以参考this link 用于相应的文件格式。