应用错误收集

时间：2016-07-06 11:27:27

标签： ocr tesseract

在数字方面，我正面临着训练Tesseract OCR for Kannada字体（Lohit Kannada和Kedage）的问题。

例如，0被识别为8（和ನ为ವ）。我需要帮助来包含unicharambigs文件（Github上的文档仅描述了格式）。尽管包含了unicharambigs文件，但我的output.txt文件没有改变。

假设[lang]对应kan，以下命令是否包含kan.traineddata文件中的unicharambigs文件？

combine_tessdata kan.

如果不这样做，我会很感激有关如何继续这样做的任何帮助。

答案 0 :(得分：-1)

很难回答不知道您使用的tesseract和kan.traineddata版本。

您可以解压缩kan.traineddata以查看其中包含的kan.unicharabigs版本，然后在编辑文件后将其重新组合。

使用-u选项解压缩：
- -u .traineddata PATHPREFIX使用提供的前缀解包.traineddata。
使用-o选项覆盖ucharambigs：
- -o .traineddata FILE…：使用命令行中提供的组件覆盖.traineddata文件的指定组件。

的副本