培训tesseract以获取Tesseract中不存在的新语言

时间:2019-03-28 16:24:40

标签: python image-processing ubuntu-16.04 ocr tesseract

此处为tessercat 3.0-3.02提到的步骤不清楚,我也找不到任何明确的文档:

提到需要以下数据集:

tessdata/eng.config
tessdata/eng.unicharset
tessdata/eng.unicharambigs
tessdata/eng.inttemp
tessdata/eng.pffmtable
tessdata/eng.normproto
tessdata/eng.punc-dawg
tessdata/eng.word-dawg
tessdata/eng.number-dawg
tessdata/eng.freq-dawg

但是,没有解释什么格式或它们实际上是什么?

我正在使用的语言未包含在utf-8中,但包含在utf-16中,尽管它具有官方的unicode代码点范围。

据目前为止

eng.word-dawg :我需要创建一个文本文件 mylang.txt ,每行一个单词。文字将以我使用的语言以及字母开头。然后将其转换为 dawg 文件。我假设命令是

wordlist2dawg mylang.txt mylang.word-dawg

eng.number-dawg :创建一个文本文件 mylangnum.txt ,其数字字符-每行一个(0至9)。然后将其隐藏到 mylang.number-dawg

eng.freq-dawg :与 eng.word-dawg 文件相同的步骤,但是单词的使用频率最高(例如,在处理某些数据集,例如报纸数据集),从第一行中的最常见单词开始(无需包含频率),然后由第二行中的下一个常见单词开始,依此类推。

我不知道其余7个文件中的其余部分。

有人可以请我指导更好的教程,以便在tesseract中添加新语言。

或。验证我的上述假设,并告诉我其余7个文件。以及在拥有所有10个文件之后如何进行。谢谢。

在Ubuntu 16.04 LTS(tesseract版本3.04.01)上使用python

0 个答案:

没有答案