我正在尝试在此图片上使用tesseract:
当我使用默认配置时:
tesseract image.jpg stdout
返回\KD FWOW
如您所见,唯一的错误是第一个字母L
被识别为反斜杠
因此,我使用以下设置在/usr/share/tesseract-ocr/tessdata/configs
创建了一个配置文件:
tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ
目标是识别字母,而不是特殊字符。但是,当我使用此配置运行tesseract时:
tesseract image.jpg stdout letters
结果是XKD FVOIV
,现在它缺少多个字符,主要是' W'。
这对我来说毫无意义,我无法理解为什么它在白名单上停止识别W。当然,我在配置中遗漏了一些东西。
我该如何解决?