如何在tesseract 3中增加/减少词典的强度?
在FAQ中它说我需要更改“NON_WERD”的值 “GARBAGE_STRING”但它们在Tesseract 3中不存在。
答案 0 :(得分:4)
根据 http://code.google.com/p/tesseract-ocr/wiki/FAQ,您更改了这些变量:
enable_new_segsearch 1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3
增加它们的值,使Tesseract更偏向字典词。
注意:您必须设置enable_new_segsearch
,否则设置为they'll have no effect。
答案 1 :(得分:1)
要完全转变tesseract的语言知识能力,请运行以下各项:
tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");
或者,为了更好的控制,只有其中一些。 (我不知道一个地方很好地解释了他们都做了什么,但这些名称很明确)这是我当前项目的代码,使用Tess4J,但您可以轻松地将它们转换为c ++或配置文件或其他任何你需要。