如何在运行Tesseract for English语言时禁用字典更正?
我目前正在将tesseract作为子进程运行。
答案 0 :(得分:7)
尝试将这些变量(将它们放在配置文件中)设置为false:
load_system_dawg
load_freq_dawg
load_punc_dawg
load_number_dawg
load_unambig_dawg
load_bigram_dawg
load_fixed_length_dawgs
另请阅读常见问题解答中的How to increase the trust in/strength of the dictionary?。从它:
对于tesseract-ocr< 3.01尝试将dict / permute.cpp中的NON_WERD和GARBAGE_STRING提升到3或甚至5。
对于tesseract-ocr> = 3.01,尝试在配置文件中增加变量 language_model_penalty_non_freq_dict_word 和 language_model_penalty_non_dict_word 。默认情况下,它们分别为0.1和0.15。