让gocr使用数据库

时间:2012-06-06 12:03:57

标签: ocr

我正在尝试让gocr识别png中的文本。我使用以下代码运行gocr:

gocr -p ../db/ -m 386 output-4.png

-m 386选项关闭识别引擎,并根据手册页扩展数据库(提示用户输入未识别的字符,并通过用户回答扩展数据库)。

gocr提示我输入它无法识别的字符,然后我告诉它字符是什么 - 它然后从png产生一个完美的(足够接近的)文档。

所以我使用以下方式重新运行gocr:

gocr -p ../db/ -m 258 output-4.png

这里-m 258选项关闭字符识别算法并告诉gocr匹配数据库中的字符。但现在它输出了许多无法识别的字符。它不应该产生我在训练数据库后获得的相同输出吗?

我可以使用算法启用匹配(然后在无法找到匹配时让gocr匹配数据库中的字符)但是它会引入大量错误,例如将“9”标识为“g”,或者“0”表示“o”,依此类推。

有谁知道我做错了什么?

1 个答案:

答案 0 :(得分:1)

你可以用-a 100标志来训练gocr,它会问你更多的角色。这对我有用。所以:

gocr -p ../db/ -m 386 -a 100 output-4.png