This image被视为
08787365076858 ,而不是
的 0878-3650-6858
我有一个包含50个相似图像文件的列表,每个“ - ”字符都匹配为“7”。
使用默认设置,即使安装tesseract来清除系统也是如此。 还尝试使用-psm = 7/8(单行/单词)并设置白名单字符。
这个问题可能是什么原因,我该如何克服它? 我知道训练,但有趣的是,为什么准确(在大多数情况下)tesseract混淆了如此不同的字符。
答案 0 :(得分:1)
重新调整到300DPI将有助于在图像中获得这些破折号。