Tesseract返回非英文字符

时间:2013-07-23 03:44:06

标签: android ocr tesseract

我最近按照一些教程设置了Tesseract,现在我正在尝试查看OCR是否正常工作。当我拍照并得到文字时,我有时会得到非英文字符。它实际上看起来像胡言乱语。我已经发布了一个我在下面输出的示例:

 ; .'—--~_~:~ ear
 .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
 .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

我拍摄的照片是this链接中研究文章的第一页。我不确定为什么会这样。我也在tessdata子目录中有eng.traineddata文件。

1 个答案:

答案 0 :(得分:1)

我想到了两件事:

  • 为图像中使用的字体训练tesseract
  • 预先编辑图像
    • 灰度
    • 调整大小
    • 扩张
    • 平滑
    • 高斯模糊
    • ......等等

对于编辑,我可以推荐ImageMagic