Tesseract-OCR:需要培训所有类型的样品吗?

时间:2016-01-22 10:27:25

标签: ocr tesseract

我想创建一个可以将打印的名片转换为文本的应用程序。我了解到tesseract-ocr可以通过培训提高准确性。

如果我希望每种类型的名片都具有高精度,我是否需要培训所有类型的名片?有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中实现高精度?

1 个答案:

答案 0 :(得分:0)

通常,提供的标准英语词典非常强大。在大多数情况下,提高准确性的第一步是预处理。

Imagemagick有许多易于使用的脚本。我看到的流行的是http://www.fmwconcepts.com/imagemagick/textcleaner/

一般来说,您希望实现以下目标:

  • 阈值图像
  • Unsharp效果很好
  • 去除噪音(如果图像良好,可能会被自适应阈值覆盖)
  • 确保tesseract白名单适合正在阅读的字段

希望这有帮助