Tesseract OCR库对图像的要求是什么才能准确提取文本?

时间:2016-01-10 14:49:24

标签: ocr tesseract

我正在使用Tesseract库从图像中提取文本。语言是越南语。我有两张照片。第一个来自一个网站。第二个是从Wordpad程序中截取的截图。它们显示在下面的链接中:

1

enter image description here

2

enter image description here

第一个准确率为95%。

  

Báncănhộtầng5khutậpthểThànhcôngBắc,DT 28m2,gầnchợThànhCông,   所以   đỏ,chínhchủ,giá800trệu.LH:A.Châu,0979622551,0905685336

第二张图片要大得多,但准确度只有60%左右。

  

Bặncănhộtầngậkhutậpthểểhànhgông   BAC。 llĩ28平方米。 gânchợợllànhBông。 sũIlỏ。   chínhl:lIlì。 giá800lriệu。 l.ll:A.BhâU,   0979622551,0905685336

我必须修复第二张图片以获得与第一张图片一样准确的文字吗?

1 个答案:

答案 0 :(得分:0)

正如@ {{{{{{}}中的@ user898678所述 以下操作可以提高OCR的准确性:

  • 修复DPI(如果需要)300 DPI最小
  • 修正文字大小(例如12磅应该没问题)
  • 尝试修复文本行(deskew和dewarp text)
  • 尝试修复图像的照明(例如,没有图像的暗部分) 二值化和去噪图像