tesseract 2.x - 同时使用多种字体

时间:2012-10-13 13:19:48

标签: ocr tesseract

我已经成功地训练了tesseract 2.x以识别一些特定的字体。但是,似乎我不能让tesseract同时识别所有这些字体 - 即源图像包含所有这些字体。目前,只有一组tesseract数据可以放入tessdata文件夹(即一套带有一个训练字体)。

我知道tesseract 3.x正确处理多种字体 - 但是,我无法升级,因为没有与.NET的良好绑定,它具有与版本2.x的.NET绑定相同的功能。

另外,对于每种字体,我想避免多次执行所有预处理和OCR本身。

1 个答案:

答案 0 :(得分:2)

对于Tesseract 2.0x,语言数据包可以识别多种字体。你有cluster个训练档案吗?

Tesseract 3.01有一些优秀的.NET包装器。查看其AddOn页面了解更多信息。