我有一个扫描的pdf,我想将其转换为可编辑的文本格式。您是否有一些建议在Windows上执行此操作?我当时正在考虑使用Linux作为Windows的子程序。还有其他想法吗?
答案 0 :(得分:0)
看起来您在Python中工作,因此您可能要研究的pypi包是pypdfocr。本质上,您将需要使用poppler之类的工具来呈现pdf并从中获取图像(扫描的PDF建立在图像上),然后通过OCR解决方案从图像中读取文本以获取文本。
我自己没有使用过这个软件包,所以这是我所能提供的最大帮助。它应该在Windows和Linux中都可以与python一起使用。