Tesseract 3中词典的优势

时间:2012-01-20 11:34:51

标签: ocr tesseract

如何在tesseract 3中增加/减少词典的强度?

在FAQ中它说我需要更改“NON_WERD”的值 “GARBAGE_STRING”但它们在Tesseract 3中不存在。

2 个答案:

答案 0 :(得分:4)

根据 http://code.google.com/p/tesseract-ocr/wiki/FAQ,您更改了这些变量:

enable_new_segsearch    1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3

增加它们的值,使Tesseract更偏向字典词。

注意:您必须设置enable_new_segsearch,否则设置为they'll have no effect

答案 1 :(得分:1)

要完全转变tesseract的语言知识能力,请运行以下各项:

tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");

或者,为了更好的控制,只有其中一些。 (我不知道一个地方很好地解释了他们都做了什么,但这些名称很明确)这是我当前项目的代码,使用Tess4J,但您可以轻松地将它们转换为c ++或配置文件或其他任何你需要。