过去几个月来我一直在使用tesseract,似乎每当有字母数字时,它总是会在看起来相似的数字和像0和O这样的字符之间造成混淆。 但是我的问题是我正在使用的文档在所有位置的字体和像素分布都完全相同,为0,但是仅当它以字母数字形式出现时才感到困惑。有办法阻止这种情况吗? 我已经尝试过
api=PyTessBaseAPI(lang='eng+eng_1+eng_2+por+fra+spa')
api.SetVariable("language_model_penalty_non_dict_word","0")
api.SetVariable("load_system_dawg","0")
api.SetVariable("language_model_penalty_non_freq_dict_word ", "0");
api.SetVariable("load_freq_dawg", "0");
api.SetVariable("load_punc_dawg", "0");
api.SetVariable("load_number_dawg", "0");
或任何可以帮助的预处理。还是可能要针对这个特定问题进行培训?
它将与“ FROO11027143”混淆。 另外,在某个地方,它也让我感到0,但仍然提取出正确的信息?