Question

我想将数百个PDF文件（格式和大小不一）转换为txt，并为此努力寻找外行的选择。

做到这一点的最佳方法是什么？我已经尝试了一些预包装的软件（PDF2Text Pilot），但是它只是……不起作用。

我也遵循了使用python进行操作的指南，但是由于我在这方面的知识不是很丰富，所以似乎无法从正确的目录中打开python。

您会推荐哪种方法？

谢谢！

Answer 1

如果您不习惯使用python，为什么不使用poppler实用程序中的shell pdftotext命令。它对于数字PDF的效果非常好。然后，您可以运行

find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext

在您的外壳中获取所有pdf版本的文本。这将很快。如有必要，您可以使用subprocess从python运行此命令。

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)

我认为这比使用本机python方法更快，更简单-但如有必要，我可以提供一种方法。

将多个PDF转换为TXT

1 个答案: