在Python中将PDF文件转换为Text文件

时间:2016-07-21 06:01:42

标签: python python-2.7 pdf text converter

我已经上了几天+研究互联网如何从pdf文件中获取特定信息。

最终我能够从文本文件中获取所有信息(我通过转到 PDF文件创建-----&gt;文件------&gt;另存为文本< / em>的)。

问题是如何让Python完成这些任务(转到PDF文件(打开它 - 非常容易打开(&#34;文件路径&#34;),单击菜单中的File,然后将文件保存为同一目录中的文本文件。)

为了清楚起见,我不需要pdfminer或pypdf库,因为我已经使用相同的文件提取信息(手动将其转换为txt后)

1 个答案:

答案 0 :(得分:0)

您可以使用可以从http://www.foolabs.com/xpdf/download.html下载的pdftotext.exe,然后通过Python在您的pdf文件上执行它:

import os
import glob
import subprocess

#remember to put your pdftotxt.exe to the folder with your pdf files 
for filename in glob.glob(os.getcwd() + '\\*.pdf'):
    subprocess.call([os.getcwd() + '\\pdftotext', filename, filename[0:-4]+".txt"])

至少它适用于我的一个项目。