我正在寻求建议我应该使用哪种版本的Tesseract来训练具有独特字母的古老语言。该语言在特征方面与阿拉伯语非常相似。它也是从右到左,一些字母可以连接在一起。换句话说,一个字母可能有三种形状,具体取决于它是在开头,中间还是结尾。它也有harakat(short vowel marks)高于或低于字母。
我之所以问的原因是因为我想利用版本3.X的可用工具,但this warning关于阿拉伯语的问题让我失意,因为这种语言与它非常相似。
对于熟悉Tesseract的人,您建议使用哪种版本来训练这种语言?此外,如果您了解更好的工具,请分享。
答案 0 :(得分:2)
如果你需要大量的OCR文件,建议使用Tesseract 4.0,因为它通常更快。如果您之前没有阅读过,请参阅以下内容以获取更多信息。
--oem 1
)中是否正常工作,这只是神经网络LSTM。自去年11月/ 12月以来,Tesseract 4.0.0 alpha已经发布。
希望得到这个帮助。