在数字方面,我正面临着训练Tesseract OCR for Kannada字体(Lohit Kannada和Kedage)的问题。
例如,0被识别为8(和ನ为ವ)。 我需要帮助来包含unicharambigs文件(Github上的文档仅描述了格式)。尽管包含了unicharambigs文件,但我的output.txt文件没有改变。
假设[lang]对应kan,以下命令是否包含kan.traineddata文件中的unicharambigs文件?
combine_tessdata kan.
如果不这样做,我会很感激有关如何继续这样做的任何帮助。
答案 0 :(得分:-1)
很难回答不知道您使用的tesseract
和kan.traineddata
版本。
您可以解压缩kan.traineddata
以查看其中包含的kan.unicharabigs
版本,然后在编辑文件后将其重新组合。
请参阅https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc了解命令语法
使用-u
选项解压缩:
-u .traineddata PATHPREFIX
使用提供的前缀解包.traineddata
。使用-o
选项覆盖ucharambigs
:
-o .traineddata FILE…
:使用命令行中提供的组件覆盖.traineddata
文件的指定组件。请注意,https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigs似乎是eng.unicharambigs