OCR tesseract:针对特殊字体的训练数据创建问题(使用Jtessboxeditor)

时间:2017-01-31 21:39:27

标签: ocr tesseract

  • 无法为Windows非本机字体创建经过适当培训的数据,即用于catia绘图字体

  • 即使识别出一些字母数字,字母也有“i,j”等字符,如Ø(Phi),°(度),±(正负)等特殊符号不正确认可。它的盒子文件值不合适。

  • JTessboxeditor是我们用来训练和创建tesseract训练数据的工具

请求您的帮助。感谢

1 个答案:

答案 0 :(得分:0)

我也需要这 3 个字符 - 虽然现在回答这个可能为时已晚。

可能不是在所有情况下都有多大帮助,但挪威语 .traineddata 文件确实包含 Ø (Phi) 字符,这个经过训练的数据文件帮助我处理了这个字符。

°(度)字符可能有点棘手,因为它通常无法识别,因为它太小了,如果您能看到字符内部是清晰的,则 Tesseract 可能能够破译。

现在最难的是±(加减)。我还没有破解这个,这可能是一种非常毛茸茸的方法;但我在想,加减总是被识别为+加而已。

我可以利用这一点。

我可以使用 Tesseract 的引擎,它公开 PageSegMode.SingleChar 来检测每个单独的字符,并使用 Tesseract 的 GetSegmentedRegions() 来获取每个字符所在的位图/图像区域是 - 您可以稍后将所有字符重新组合成一个字符串。

然后我可以运行 ImageMagick 来计算/比较找到的加号字符与加号或加号图像的相似程度。最相似的会告诉你哪个字符。

采用我的方法,我仍然需要解析识别的文本并将其转换为可用的内容。 例如,Ø (Phi) 字符可能会被检测为小写,但我希望它是大写的。 或者度数检测为撇号,但预期结果是度数。 另一种转换是当我检测到一个尺寸时,小数点可能会被逗号错误地识别,但我希望小数点分隔符是一个点 (1,99 - 1.99)