我用Python编写,使用pytesseract
或在需要时直接Popen
调用。
我尝试对不规则结构的文档进行OCR,这是一个看起来像这样的字母:
问题出在Tesseract生成的.hocr
文件中,我得到了由左右两列组成的行,像“收件人:发件人:”
我想实现的是从左右列分开的输出。如果进行了合理的详细说明,则使用第三方Python实用程序对图像进行预处理是可以接受的解决方案。该脚本必须具有自主性,并且可以以某种方式检测到此问题,因为并非所有字母的格式都如此奇怪。
使用--psm 1
允许输入格式检测-可能由于结构太复杂而无法对默认格式进行改进。
调整一些配置文件选项,例如gapmap_use_ends
和textord_words_maxspace
-我在这些文件上找不到好的文档,可能值的正确组合,但是其中有57个带有“空格”的选项名称...对此的任何见解将不胜感激。
编辑.hocr
-不知道如何为不会干扰其他地方正常文本的单词框编写适当的分组规则...