哪个版本的Tesseract用于培训新语言?

时间:2017-08-13 16:25:21

标签: ocr tesseract

我正在寻求建议我应该使用哪种版本的Tesseract来训练具有独特字母的古老语言。该语言在特征方面与阿拉伯语非常相似。它也是从右到左,一些字母可以连接在一起。换句话说,一个字母可能有三种形状,具体取决于它是在开头,中间还是结尾。它也有harakat(short vowel marks)高于或低于字母。

我之所以问的原因是因为我想利用版本3.X的可用工具,但this warning关于阿拉伯语的问题让我失意,因为这种语言与它非常相似。

对于熟悉Tesseract的人,您建议使用哪种版本来训练这种语言?此外,如果您了解更好的工具,请分享。

1 个答案:

答案 0 :(得分:2)

如果你需要大量的OCR文件,建议使用Tesseract 4.0,因为它通常更快。如果您之前没有阅读过,请参阅以下内容以获取更多信息。

  1. Tesseract 4.0 Accuracy and Performance
  2. Tesseract 4.0 with LSTM
  3. Training Tesseract 4.0
  4. Language Data File for 4.0,您可能需要进行测试,以确定Arbic OCR在OCR引擎模式1(即--oem 1)中是否正常工作,这只是神经网络LSTM。
  5. 自去年11月/ 12月以来,Tesseract 4.0.0 alpha已经发布。

    希望得到这个帮助。