Tesseract OCR - 将复选框识别为单词

时间:2016-07-21 13:25:38

标签: ocr tesseract

对于客户我想教Tesseract将复选框识别为单词。当Tesseract识别出一个空的复选框时,它工作正常。

此命令与this教程结合使用就像一个魅力,Tesseract能够找到空的复选框并将其解释为" [_]":

tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train

这是我成功分析文档的命令:

tesseract test.png test -l deu1+deu2

然后我尝试训练一个选中的复选框,但出现了这个错误:

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       1
   Boxes failed resegmentation:       1
   Found 0 good blobs.
Generated training data for 0 words

有没有人知道如何教授Tesseract识别已选中复选框?

提前谢谢!

1 个答案:

答案 0 :(得分:1)

经过更多尝试,我发现当然可以教Tesseract不同种类的字母。但是,正如我今天所知,不可能向Tesseract教一个不符合字母某些“视觉规则”的标志。例如:字母始终是墨迹的一条连接线,最多是墨迹和“墨迹之外的东西”的组合(例如:i,ä,ö,ü),这里的问题在于,复选框没有什么相似之处(一个对象另一个对象中),这导致Tesseract感到烦躁和崩溃。