在Tesseract中禁用字典

时间:2013-01-16 17:54:06

标签: command-line tesseract

如何在运行Tesseract for English语言时禁用字典更正?

我目前正在将tesseract作为子进程运行。

1 个答案:

答案 0 :(得分:7)

尝试将这些变量(将它们放在配置文件中)设置为false:

load_system_dawg 
load_freq_dawg
load_punc_dawg
load_number_dawg
load_unambig_dawg
load_bigram_dawg
load_fixed_length_dawgs

https://groups.google.com/forum/?fromgroups=#!searchin/tesseract-ocr/Disable$20dictionary$20in$20Tesseract/tesseract-ocr/5nvIo1DJxHE/f3gBi2pTKykJ

另请阅读常见问题解答中的How to increase the trust in/strength of the dictionary?。从它:

  

对于tesseract-ocr< 3.01尝试将dict / permute.cpp中的NON_WERD和GARBAGE_STRING提升到3或甚至5。

     

对于tesseract-ocr> = 3.01,尝试在配置文件中增加变量 language_model_penalty_non_freq_dict_word language_model_penalty_non_dict_word 。默认情况下,它们分别为0.1和0.15。