应用错误收集

可以处理未知字符的开源OCR包？

时间：2011-11-26 18:54:41

标签： character-encoding ocr

我想找到一个（最好是）能够处理新字符集的开源OCR包（适用于任何操作系统）。

该语言是拉丁语，但有一些抄写缩写，大约有10种不是Unicode的缩写。

文本是使用专门开发的字体打印的，我有高分辨率的文字图像。

我假设需要进行一些培训，首先将抄写缩写映射到ASCII，然后推测软件特定于语料库的培训，以了解缩写词在单词中的位置。

有人可以推荐一个（最好）能够处理这个的开源软件包吗？

1 个答案:

答案 0 :(得分：0)

AFAIK没有可以按原样使用的库（免费或商业版）（具有Unicode无法表示的字符的语言）......但作为一个良好的起点，有一个名为{的开源OCR {3}}你可以为你的特殊场景采取和修改......另一个有趣的基础可能是Tesseract ......但要注意：这意味着很多工作。