Tesseract OCR发现太少的盒子/忽略小字符

时间:2015-04-01 15:00:13

标签: ocr tesseract

使用Tesseract进行培训/文本识别过程时遇到问题。这是我的训练数据:http://s11.postimg.org/867aq10ur/dot_dotmatrixfont_exp0.png虽然训练Tesseract忽略破折号(我用红色框标记它们,只是为了清楚我的意思)和如果我使用经过训练的数据文本识别它也忽略了它们。今天我玩了Tesseract参数(SetVariable(名称,值)),但不幸的是我没有成功。 我能做些什么来教Tesseract那些破折号?提前谢谢!

1 个答案:

答案 0 :(得分:0)

Tesserect培训非常棘手。

你最好的机会可能是将破折号作为单个字符处理。 如果你的盒子编辑器或你正在使用的任何工具都没有看到破折号,请先尝试运行一些图像处理,尤其是阈值或反转。试着看看OpenCV。他们有一些很好的工具用于这种图像处理。