标签: python-3.x ocr pdftotext
我想构建一个OCR程序,该程序将获取PDF文件并从中提取文本。
为此,我首先需要将pdf文件(一页接一页)转换为图像。
我的问题是我需要使用一些将pdf页面分开的库,以便能够将它们逐个转换为jpg。
“ pdf2image”库是我需要的确切解决方案,它们具有可以完全满足我需要的“ convert_from_path”,但是它们在Windows上不能很好地工作。
这就是为什么我在寻找替代品或其他一些想法如何做到这一点。
谢谢!