Question

我已经上了几天+研究互联网如何从pdf文件中获取特定信息。

最终我能够从文本文件中获取所有信息（我通过转到 PDF文件创建-----＆gt;文件------＆gt;另存为文本< / em>的）。

问题是如何让Python完成这些任务（转到PDF文件（打开它 - 非常容易打开（＆＃34;文件路径＆＃34;），单击菜单中的File，然后将文件保存为同一目录中的文本文件。）

为了清楚起见，我不需要pdfminer或pypdf库，因为我已经使用相同的文件提取信息（手动将其转换为txt后）

Answer 1

您可以使用可以从http://www.foolabs.com/xpdf/download.html下载的pdftotext.exe，然后通过Python在您的pdf文件上执行它：

import os
import glob
import subprocess

#remember to put your pdftotxt.exe to the folder with your pdf files 
for filename in glob.glob(os.getcwd() + '\\*.pdf'):
    subprocess.call([os.getcwd() + '\\pdftotext', filename, filename[0:-4]+".txt"])

至少它适用于我的一个项目。

在Python中将PDF文件转换为Text文件

1 个答案: