如何在Windows上将pdf转换为文本?

时间:2019-11-15 14:07:27

标签: windows transform pdftotext

我有一个扫描的pdf,我想将其转换为可编辑的文本格式。您是否有一些建议在Windows上执行此操作?我当时正在考虑使用Linux作为Windows的子程序。还有其他想法吗?

1 个答案:

答案 0 :(得分:0)

看起来您在Python中工作,因此您可能要研究的pypi包是pypdfocr。本质上,您将需要使用poppler之类的工具来呈现pdf并从中获取图像(扫描的PDF建立在图像上),然后通过OCR解决方案从图像中读取文本以获取文本。

我自己没有使用过这个软件包,所以这是我所能提供的最大帮助。它应该在Windows和Linux中都可以与python一起使用。