标签: tesseract python-tesseract
我正在建立一个自动管道,以从pdf表单中进行ocr数据处理,以便使用tesseract和python将其存储在SQL数据库中。我已经建立了tesseract UZN文件来查看文档的特定区域,但是,在某些情况下,这些区域实际上没有任何文本。
是否有可能让tesseract做到这一点?即使我不得不摆弄tesseract的来源?
到目前为止,仅设置区域文件。我还使用了preserve_interword_spaces = 1,但这些区域没有出现空白行。
preserve_interword_spaces = 1
我在这里挖了一点点,但是运气不好。