Tesseract在单行图像中混淆“ - ”和“7”

时间:2016-08-28 15:41:30

标签: ocr tesseract

This image被视为
08787365076858 ,而不是
0878-3650-6858

我有一个包含50个相似图像文件的列表,每个“ - ”字符都匹配为“7”。

使用默认设置,即使安装tesseract来清除系统也是如此。 还尝试使用-psm = 7/8(单行/单词)并设置白名单字符。

这个问题可能是什么原因,我该如何克服它? 我知道训练,但有趣的是,为什么准确(在大多数情况下)tesseract混淆了如此不同的字符。

1 个答案:

答案 0 :(得分:1)

重新调整到300DPI将有助于在图像中获得这些破折号。