是否有可能在Tesseract中识别出一组有限的单词?
我需要识别一组单词(大约200个),并希望tesseract将一些单词更正为最接近的单词。为了做到这一点,我用我的单词(eng.word-dawg和eng.freq-dawg)更新了语言模型,并通过将language_model_penalty_non_freq_dict_word和language_model_penalty_non_dict_word设置为大数字(尝试0.9和1.0)来提高灵敏度。但是,这对输出没有任何影响。
我有一句话(BENZOATE),tesseract一直认为是UENZOATE。这很奇怪,因为我在字典中有BENZOATE。