open-source - 如何改善OCR结果

如何改善OCR结果

时间：2015-09-29 11:38:33

标签： open-source ocr tesseract

我试图改进OpenSource OCR软件的结果。我使用的是tessaract，因为我发现它仍然比gocr产生更好的效果，但是输入质量差，它存在很大的问题。所以我尝试使用我在互联网上找到的各种工具来预处理图像：

unpaper
弗雷德的ImageMagick脚本：TEXTCLEANER
使用GIMP的manuall

但是我用这个糟糕的测试文档无法取得好成绩:(真的只是为了测试，我不需要这个文件的内容） http://9gag.com/gag/aBrG8w2/employee-handbook

此测试文档的在线服务效果非常好： http://www.onlineocr.net/

我很想知道是否有可能使用智能预处理来获得与tesseract相似的结果。 OpenSource OCR引擎与商业引擎相比真的如此糟糕吗？即使谷歌使用tesseract扫描文档，所以我期待更多......

2 个答案:

答案 0 :(得分：0)

Tesseract的识别精度略低于最佳商业精确度（Abbyy FineReader），但由于其性质，它的灵活性更高。这种灵活性有时需要一些预处理，因为Tesseract无法管理每种情况。其实谷歌是谷歌的主要赞助商！

您可以做的第一件事是尝试扩展文本，以便至少有20个像素宽的字符或更多。由于Tesseract使用角色的主要部分作为特征。边界，它需要有一个更大的角色＆＃39;尺寸与其他算法相比。

你可以尝试的另一件事，总是指你提到的测试文件，是用自适应阈值方法对你的图像进行二值化（这里你可以找到关于那个https://dsp.stackexchange.com/a/2504的一些信息），因为存在照明。 Tesseract在内部对图像进行二值化处理，但是当它无法做到这一点时就会出现这种情况（它类似于Improving the quality of the output with Tesseract中的示例，在那里您还可以找到其他一些有用的信息）

答案 1 :(得分：0)

我怀疑Google仍然在Google文档中使用Tesseract。至于一个好的免费OCR解决方案：

我使用您的测试文档在http://ocr.a9t9.com/ocrapi测试了免费的OCR API，结果非常好：几乎与Abbyy一样好，与onlineocr.net差不多，当然比Tesseract好得多。

结果叠加：http://imgur.com/dUEL0G0

（此API使用里面的免费Microsoft OCR库）