应用错误收集

tesseract 2.x - 同时使用多种字体

时间：2012-10-13 13:19:48

标签： ocr tesseract

我已经成功地训练了tesseract 2.x以识别一些特定的字体。但是，似乎我不能让tesseract同时识别所有这些字体 - 即源图像包含所有这些字体。目前，只有一组tesseract数据可以放入tessdata文件夹（即一套带有一个训练字体）。

我知道tesseract 3.x正确处理多种字体 - 但是，我无法升级，因为没有与.NET的良好绑定，它具有与版本2.x的.NET绑定相同的功能。

另外，对于每种字体，我想避免多次执行所有预处理和OCR本身。

1 个答案:

答案 0 :(得分：2)

对于Tesseract 2.0x，语言数据包可以识别多种字体。你有cluster个训练档案吗？

Tesseract 3.01有一些优秀的.NET包装器。查看其AddOn页面了解更多信息。