如何改善OCR结果

时间:2015-09-29 11:38:33

标签: open-source ocr tesseract

我试图改进OpenSource OCR软件的结果。我使用的是tessaract,因为我发现它仍然比gocr产生更好的效果,但是输入质量差,它存在很大的问题。所以我尝试使用我在互联网上找到的各种工具来预处理图像:

  • unpaper
  • 弗雷德的ImageMagick脚本:TEXTCLEANER
  • 使用GIMP的manuall

但是我用这个糟糕的测试文档无法取得好成绩:(真的只是为了测试,我不需要这个文件的内容) http://9gag.com/gag/aBrG8w2/employee-handbook

此测试文档的在线服务效果非常好: http://www.onlineocr.net/

我很想知道是否有可能使用智能预处理来获得与tesseract相似的结果。 OpenSource OCR引擎与商业引擎相比真的如此糟糕吗?即使谷歌使用tesseract扫描文档,所以我期待更多......

2 个答案:

答案 0 :(得分:0)

Tesseract的识别精度略低于最佳商业精确度(Abbyy FineReader),但由于其性质,它的灵活性更高。 这种灵活性有时需要一些预处理,因为Tesseract无法管理每种情况。 其实谷歌是谷歌的主要赞助商!

您可以做的第一件事是尝试扩展文本,以便至少有20个像素宽的字符或更多。由于Tesseract使用角色的主要部分作为特征。边界,它需要有一个更大的角色'尺寸与其他算法相比。

你可以尝试的另一件事,总是指你提到的测试文件,是用自适应阈值方法对你的图像进行二值化(这里你可以找到关于那个https://dsp.stackexchange.com/a/2504的一些信息),因为存在照明。 Tesseract在内部对图像进行二值化处理,但是当它无法做到这一点时就会出现这种情况(它类似于Improving the quality of the output with Tesseract中的示例,在那里您还可以找到其他一些有用的信息)

答案 1 :(得分:0)

我怀疑Google仍然在Google文档中使用Tesseract。至于一个好的免费OCR解决方案:

我使用您的测试文档在http://ocr.a9t9.com/ocrapi测试了免费的OCR API,结果非常好:几乎与Abbyy一样好,与onlineocr.net差不多,当然比Tesseract好得多。

结果叠加:http://imgur.com/dUEL0G0

(此API使用里面的免费Microsoft OCR库)