我正在使用tessract-ocr 4.00来识别python应用程序上的文本。问题是我的大部分文本都是非字典类型的,因此为了提高识别质量,Github页面建议禁用字典。但是,碰巧无法通过pytesseract-python中的包装器库完成此可配置的操作。 我挖了一下,找到了另一个配置的选项:language_model_penalty_non_dict_word
因此,通过设置language_model_penalty_non_dict_word = 0.0,这等于tesseract中的load_system_dawg = False吗?