标签: ocr tesseract
我已经成功地训练了tesseract 2.x以识别一些特定的字体。但是,似乎我不能让tesseract同时识别所有这些字体 - 即源图像包含所有这些字体。目前,只有一组tesseract数据可以放入tessdata文件夹(即一套带有一个训练字体)。
我知道tesseract 3.x正确处理多种字体 - 但是,我无法升级,因为没有与.NET的良好绑定,它具有与版本2.x的.NET绑定相同的功能。
另外,对于每种字体,我想避免多次执行所有预处理和OCR本身。
答案 0 :(得分:2)
对于Tesseract 2.0x,语言数据包可以识别多种字体。你有cluster个训练档案吗?
Tesseract 3.01有一些优秀的.NET包装器。查看其AddOn页面了解更多信息。