我想找到一个(最好是)能够处理新字符集的开源OCR包(适用于任何操作系统)。
该语言是拉丁语,但有一些抄写缩写,大约有10种不是Unicode的缩写。
文本是使用专门开发的字体打印的,我有高分辨率的文字图像。
我假设需要进行一些培训,首先将抄写缩写映射到ASCII,然后推测软件特定于语料库的培训,以了解缩写词在单词中的位置。
有人可以推荐一个(最好)能够处理这个的开源软件包吗?
答案 0 :(得分:0)
AFAIK没有可以按原样使用的库(免费或商业版)(具有Unicode无法表示的字符的语言)......但作为一个良好的起点,有一个名为{的开源OCR {3}}你可以为你的特殊场景采取和修改......另一个有趣的基础可能是Tesseract ......但要注意:这意味着很多工作。