如何使用gImageReader为Tessearct创建配置文件?

时间:2018-05-18 10:02:31

标签: tesseract

我正在尝试阻止Tesseract使用连字(例如,2个字符中的“fi”在一个字符中变为“fi”)并且发现可以向引擎配置文件to do just that添加参数。

但是我无法在我的gImageReader安装的tessdata目录中找到此文件...

如何根据格式,名称和其他潜在的语法要求创建一个?

1 个答案:

答案 0 :(得分:0)

您可能需要解压缩.traineddata文件以在unicharambigs文件中添加如下所示的条目,然后重新打包。

1 fi 2 fi 1

请参阅文档:https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#the-unicharambigs-file