Question

对于客户我想教Tesseract将复选框识别为单词。当Tesseract识别出一个空的复选框时，它工作正常。

此命令与this教程结合使用就像一个魅力，Tesseract能够找到空的复选框并将其解释为＆＃34; [_]＆＃34;：

tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train

这是我成功分析文档的命令：

tesseract test.png test -l deu1+deu2

然后我尝试训练一个选中的复选框，但出现了这个错误：

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       1
   Boxes failed resegmentation:       1
   Found 0 good blobs.
Generated training data for 0 words

有没有人知道如何教授Tesseract识别已选中复选框？

提前谢谢！

Answer 1

经过更多尝试，我发现当然可以教Tesseract不同种类的字母。但是，正如我今天所知，不可能向Tesseract教一个不符合字母某些“视觉规则”的标志。例如：字母始终是墨迹的一条连接线，最多是墨迹和“墨迹之外的东西”的组合（例如：i，ä，ö，ü），这里的问题在于，复选框没有什么相似之处（一个对象在另一个对象中），这导致Tesseract感到烦躁和崩溃。

Tesseract OCR - 将复选框识别为单词

1 个答案: