Tesseract Ocr Engine立方体模式 - 训练Tesseract

时间:2013-05-16 14:32:03

标签: ocr tesseract cube

您能解释一下Tesseract ocr Engine上的立方体模式和多维数据集数据文件是什么,使用它们有什么好处?

我如何训练希腊的tesseract获得更好的结果?

3 个答案:

答案 0 :(得分:5)

对于那些可能仍感兴趣的人。 在Tesseract的网站上,有针对不同文件的标准训练数据集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

此处描述了培训程序(适用于3.01版)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在Cube的情况下,与Tesseract相比,还有另一个引擎。它消耗更多资源,速度更慢,但效果更好。

数据文件 - 文件集,最终应该引导(合并到)训练有素的数据文件。

答案 1 :(得分:3)

在tesseract-ocr-extradocs项目维基上有一个Cube引擎模式所需的各种训练文件的解释:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里,您可以找到有关如何在多维数据集模式下创建培训所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能很有用:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

多维数据集模式通常会通过使用神经网络而不是自适应分类器为您提供更好的识别结果。

我自己从未创建过Cube培训文件,所以我无法向您提供有关如何创建这些文件的更多详细信息。

答案 2 :(得分:2)

对于Tesseract 4+(使用LSTM)

我不确定立方体模式,但是可以使用--oem 1启用新的LSTM引擎并利用以下解决方案:

  • 使用现有模型

    我建议使用Tesseract GitHub repo上可用的预训练模型。他们提供了多种语言(而且似乎也支持希腊语!)

  • 亲自培训

    我自己还没有尝试过,但是relevant Wiki on GitHub看起来不错。

tl-dr

  • git clone git@github.com:tesseract-ocr/tessdata.git
  • 选择所需的语言文件
  • 将其移动到项目的 tessdata 目录