在过去的3个月里,我一直在努力训练Tesseract 鉴于我真正缺乏的一系列图像 正确的文件,以及我开始的高度复杂性 放弃Tesseract作为解决方案。
我正在寻找一种替代方案,这将是相对无痛的 对于训练,我不打算在这里重新发现轮子。
如果没有任何免费的话,我猜付费解决方案会 必须做(没有200美元以上)
答案 0 :(得分:6)
根据您的评论,您只需扫描相对少量的文档,几乎100%的准确率,您的预算约为200美元
那么答案很简单。您不需要任何编程解决方案。只需购买优质的商用OCR产品,即。 ABBYY FineReader(免责声明:我为ABBYY工作)。它在不同的地区有不同的价格,但我想这是在你的预算之内。
商用台式机OCR产品将为您提供几乎100%的典型语言准确度。他们还有方便的手动验证工具来修复所有剩余的错误。通常它们支持各种各样的现代字体,但是如果你的字体不是很简单,那么它们就有字体训练效用。
我认为这是适合您的最佳解决方案。
更新:Linux平台。 不幸的是,对于Linux,几乎没有高质量的OCR产品可供选择。我所知道的唯一一个来自ABBYY:http://ocr4linux.com/en:start但它没有UI,验证和字体培训。但至少你可以尝试一下,看看它是否会给你足够的准确性,这可能就是这种情况。
答案 1 :(得分:4)
我在为OCR A扩展字体做了一个月的努力后训练了tesseract 2.04 它的工作非常好,并且在字体大小为14时显示高于90的准确度 我建议不要放弃tesseract 请您解释一下您的问题以下几点。
答案 2 :(得分:2)
您可以使用jTessBoxEditor编辑您生成的框文件。捆绑了它是一个PowerShell脚本,用于自动生成盒文件和最终的.traineddata文件生成。