对于客户我想教Tesseract将复选框识别为单词。当Tesseract识别出一个空的复选框时,它工作正常。
此命令与this教程结合使用就像一个魅力,Tesseract能够找到空的复选框并将其解释为" [_]":
tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train
这是我成功分析文档的命令:
tesseract test.png test -l deu1+deu2
然后我尝试训练一个选中的复选框,但出现了这个错误:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
Boxes read from boxfile: 1
Boxes failed resegmentation: 1
Found 0 good blobs.
Generated training data for 0 words
有没有人知道如何教授Tesseract识别已选中复选框?
提前谢谢!
答案 0 :(得分:1)
经过更多尝试,我发现当然可以教Tesseract不同种类的字母。但是,正如我今天所知,不可能向Tesseract教一个不符合字母某些“视觉规则”的标志。例如:字母始终是墨迹的一条连接线,最多是墨迹和“墨迹之外的东西”的组合(例如:i,ä,ö,ü),这里的问题在于,复选框没有什么相似之处(一个对象在另一个对象中),这导致Tesseract感到烦躁和崩溃。