培训Tesseract OCR以获得自定义语言所需的数据

时间:2017-08-07 07:27:20

标签: tesseract training-data

我正在尝试构建一个CUSTOM语言,仅用于检测以下字符:

  

[' A',' B',' C',' D',' E',& #39; F',' G',' H','我',' J',' K&# 39;,' L',' M',' N',   ' O'' P',' Q',' R',' S',' T& #39;,' U'' V',' W',' X',' Y',& #39; Z',' 0',' 1',   ' 2',' 3',' 4',' 5',' 6',' 7& #39;,' 8',' 9','<','<<<',&# 39 /']

我有近50张图片,我已经生成了盒子文件,纠正了错误。 我的问题是针对上述自定义角色的训练tesseract是否需要使用由tesseract工具创建的图像,以便在创建cust.traindata时也用作输入

我已经制作了一个代码,从上面的数组中获取5个字符并使用tesseract工具构建图像,然后生成.box文件,该文件是正确的,并且不需要调整所有可能的配置但是因为tesseract as创建它需要给它来构建cust.traindata。

提前致谢。

1 个答案:

答案 0 :(得分:0)

如果我们希望tesseract使用默认的“eng”语言来预测后续字母,我们不需要创建新语言 ['A','B','C','D','E','F','G','H','I','J','K','L',' M','N','O','P','Q','R','S','T','U','V','W','X','Y' ,'Z','0','1','2','3','4','5','6','7','8','9','<', '<<<<','/']

您只需将以下配置添加到tesseract tessedit_char_whitelist =“ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<”

例如

tesseract input_image output_text -l eng -c tessedit_char_whitelist =“ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<”