应用错误收集

Tesseract在单行图像中混淆“ - ”和“7”

时间：2016-08-28 15:41:30

标签： ocr tesseract

This image被视为
08787365076858 ，而不是
的 0878-3650-6858

我有一个包含50个相似图像文件的列表，每个“ - ”字符都匹配为“7”。

使用默认设置，即使安装tesseract来清除系统也是如此。还尝试使用-psm = 7/8（单行/单词）并设置白名单字符。

这个问题可能是什么原因，我该如何克服它？我知道训练，但有趣的是，为什么准确（在大多数情况下）tesseract混淆了如此不同的字符。

1 个答案:

答案 0 :(得分：1)

重新调整到300DPI将有助于在图像中获得这些破折号。