可以处理未知字符的开源OCR包?

时间:2011-11-26 18:54:41

标签: character-encoding ocr

我想找到一个(最好是)能够处理新字符集的开源OCR包(适用于任何操作系统)。

该语言是拉丁语,但有一些抄写缩写,大约有10种不是Unicode的缩写。

文本是使用专门开发的字体打印的,我有高分辨率的文字图像。

我假设需要进行一些培训,首先将抄写缩写映射到ASCII,然后推测软件特定于语料库的培训,以了解缩写词在单词中的位置。

有人可以推荐一个(最好)能够处理这个的开源软件包吗?

1 个答案:

答案 0 :(得分:0)

AFAIK没有可以按原样使用的库(免费或商业版)(具有Unicode无法表示的字符的语言)......但作为一个良好的起点,有一个名为{的开源OCR {3}}你可以为你的特殊场景采取和修改......另一个有趣的基础可能是Tesseract ......但要注意:这意味着很多工作。