我已经上了几天+研究互联网如何从pdf文件中获取特定信息。
最终我能够从文本文件中获取所有信息(我通过转到 PDF文件创建-----&gt;文件------&gt;另存为文本< / em>的)。
问题是如何让Python完成这些任务(转到PDF文件(打开它 - 非常容易打开(&#34;文件路径&#34;),单击菜单中的File,然后将文件保存为同一目录中的文本文件。)
为了清楚起见,我不需要pdfminer或pypdf库,因为我已经使用相同的文件提取信息(手动将其转换为txt后)
答案 0 :(得分:0)
您可以使用可以从http://www.foolabs.com/xpdf/download.html下载的pdftotext.exe,然后通过Python在您的pdf文件上执行它:
import os
import glob
import subprocess
#remember to put your pdftotxt.exe to the folder with your pdf files
for filename in glob.glob(os.getcwd() + '\\*.pdf'):
subprocess.call([os.getcwd() + '\\pdftotext', filename, filename[0:-4]+".txt"])
至少它适用于我的一个项目。