应用错误收集

我正在使用tessract-ocr 4.00来识别python应用程序上的文本。问题是我的大部分文本都是非字典类型的，因此为了提高识别质量，Github页面建议禁用字典。但是，碰巧无法通过pytesseract-python中的包装器库完成此可配置的操作。我挖了一下，找到了另一个配置的选项：language_model_penalty_non_dict_word

因此，通过设置language_model_penalty_non_dict_word = 0.0，这等于tesseract中的load_system_dawg = False吗？

禁用tesseract词典以使用python提高质量

0 个答案: