我想创建一个可以将打印的名片转换为文本的应用程序。我了解到tesseract-ocr可以通过培训提高准确性。
如果我希望每种类型的名片都具有高精度,我是否需要培训所有类型的名片?有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中实现高精度?
答案 0 :(得分:0)
通常,提供的标准英语词典非常强大。在大多数情况下,提高准确性的第一步是预处理。
Imagemagick有许多易于使用的脚本。我看到的流行的是http://www.fmwconcepts.com/imagemagick/textcleaner/
一般来说,您希望实现以下目标:
希望这有帮助