如何训练tesseract但不创建新语言?

时间:2016-10-19 14:08:23

标签: tesseract

所以我现在正在尝试tesseract,它确实有效,但它不够准确。我知道图像质量也起到了作用等作用,但我使用的一些文档使用了一种相当不寻常的字体。它仍然可以识别它的一部分(约50-60%,这是相当不错的),但这显然不完全令人满意。

我现在想知道是否可以训练tesseract,但不是要创建一种全新的语言,而是使用我已经使用的数据,并在此基础上进行改进并改进它?

其次,如果可以的话,这是否可取?或者(2)为我遇到的每种新字体创建新语言会更好,(3)为我遇到的每种新字体创建新语言,但不是从头开始,而是始终建立在默认情况下我现在正在使用的数据?你怎么看?如果您可以提供有关如何训练tesseract&的任何链接利用已经提供的培训数据,请告诉我。

1 个答案:

答案 0 :(得分:0)

您可以从文档中提供的.traineddata文件中提取文件: 指定选项-u将所有组件解压缩到指定的路径:

combine_tessdata -u tessdata / eng.traineddata / home / $ USER / temp / eng。 这将创建/home/$USER/temp/eng.*文件,其中包含来自tessdata / eng.traineddata的各个tessdata组件。 还有其他选项,请查看以下链接中的文档。 https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

但是,不是使用原始文件,而是建议用新语言训练tesseract。

(2)您不必为每种字体创建新的语言。您必须为每种字体创建图像,框和培训文件。然后将所有这些文件合并为一种语言的训练数据文件。< / p>

(3)这也是可能的。请访问 https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set