ocr - Tesseract OCR培训的替代方案？

时间：2011-04-01 06:06:33

标签： ocr tesseract

在过去的3个月里，我一直在努力训练Tesseract 鉴于我真正缺乏的一系列图像正确的文件，以及我开始的高度复杂性放弃Tesseract作为解决方案。

我正在寻找一种替代方案，这将是相对无痛的对于训练，我不打算在这里重新发现轮子。

如果没有任何免费的话，我猜付费解决方案会必须做（没有200美元以上）

答案 0 :(得分：6)

根据您的评论，您只需扫描相对少量的文档，几乎100％的准确率，您的预算约为200美元

那么答案很简单。您不需要任何编程解决方案。只需购买优质的商用OCR产品，即。 ABBYY FineReader（免责声明：我为ABBYY工作）。它在不同的地区有不同的价格，但我想这是在你的预算之内。

商用台式机OCR产品将为您提供几乎100％的典型语言准确度。他们还有方便的手动验证工具来修复所有剩余的错误。通常它们支持各种各样的现代字体，但是如果你的字体不是很简单，那么它们就有字体训练效用。

我认为这是适合您的最佳解决方案。

更新：Linux平台。不幸的是，对于Linux，几乎没有高质量的OCR产品可供选择。我所知道的唯一一个来自ABBYY：http://ocr4linux.com/en:start但它没有UI，验证和字体培训。但至少你可以尝试一下，看看它是否会给你足够的准确性，这可能就是这种情况。

答案 1 :(得分：4)

我在为OCR A扩展字体做了一个月的努力后训练了tesseract 2.04 它的工作非常好，并且在字体大小为14时显示高于90的准确度我建议不要放弃tesseract 请您解释一下您的问题以下几点。

答案 2 :(得分：2)

您可以使用jTessBoxEditor编辑您生成的框文件。捆绑了它是一个PowerShell脚本，用于自动生成盒文件和最终的.traineddata文件生成。