在[lang] .traineddata文件中包含unicharambigs(Tesseract)

时间:2016-07-06 11:27:27

标签: ocr tesseract

在数字方面,我正面临着训练Tesseract OCR for Kannada字体(Lohit Kannada和Kedage)的问题。

例如,0被识别为8(和ನ为ವ)。 我需要帮助来包含unicharambigs文件(Github上的文档仅描述了格式)。尽管包含了unicharambigs文件,但我的output.txt文件没有改变。

假设[lang]对应kan,以下命令是否包含kan.traineddata文件中的unicharambigs文件?

combine_tessdata kan.

如果不这样做,我会很感激有关如何继续这样做的任何帮助。

1 个答案:

答案 0 :(得分:-1)

很难回答不知道您使用的tesseractkan.traineddata版本。

您可以解压缩kan.traineddata以查看其中包含的kan.unicharabigs版本,然后在编辑文件后将其重新组合。

请参阅https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc了解命令语法

  • 使用-u选项解压缩:

    • -u .traineddata PATHPREFIX使用提供的前缀解包.traineddata
  • 使用-o选项覆盖ucharambigs

    • -o .traineddata FILE…:使用命令行中提供的组件覆盖.traineddata文件的指定组件。

请注意,https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigs似乎是eng.unicharambigs

的副本