我想将数百个PDF文件(格式和大小不一)转换为txt,并为此努力寻找外行的选择。
做到这一点的最佳方法是什么? 我已经尝试了一些预包装的软件(PDF2Text Pilot),但是它只是……不起作用。
我也遵循了使用python进行操作的指南,但是由于我在这方面的知识不是很丰富,所以似乎无法从正确的目录中打开python。
您会推荐哪种方法?
谢谢!
答案 0 :(得分:0)
如果您不习惯使用python,为什么不使用poppler
实用程序中的shell pdftotext
命令。它对于数字PDF的效果非常好。然后,您可以运行
find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext
在您的外壳中获取所有pdf版本的文本。这将很快。如有必要,您可以使用subprocess
从python运行此命令。
import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)
我认为这比使用本机python方法更快,更简单-但如有必要,我可以提供一种方法。