使用字典词和/或带连字符的词来提高tesseract的质量?

时间:2018-08-30 21:16:38

标签: tesseract

我正在将带有tesseract的旧报纸拒之门外,我对结果总体上感到满意。不过,我注意到,tesseract通常会猜测似乎应该用字典检查或某种概率性猜测(例如,像手机上的自动更正)那样容易捕获和纠正的非单词。例如,在下面的段落中,tesseract猜测连字单词{ "id": 1, "worker_id": "Admin", "first_name": "Eba", "father_name": "Aleamyehu", "grand_father_name": "Tufa", "email": "ebaaleamyhu3@gmail.com", "phone": "091086788", "gender": "Male", "role_id": 1, "isFirstTime": 1, "profile_pic": "avatar.jpg", "deleted_at": null, "created_at": null, "updated_at": null } 的{​​{1}}和ar-resis的{​​{1}}。

图像输入 excerpt from newspaper article

OCR输出

ar-rests

如果您查看附件中的图像,则两者都是基于像素的合理猜测(也就是说,在bricf中倒数第二个字符似乎更像brief,而不是into the air, and making ar- resis, The bricf battle followed -bombarding of at least three po- )。 brief并不是英语词典中会出现的单词,而且与该单词非常接近。

这引起了两个相关的问题。首先,是否有一个配置选项会增加tesseract将c转换为e的可能性?我尝试增加对非字典词(bricf)的惩罚,但没有明显效果。

第二,是否有一个选项可能会诱使tesseract尝试将诸如bricf之类的带连字符的单词重新组合为brief(理想情况下,然后与字典进行比较以猜测language_model_penalty_non_dict_word )?

0 个答案:

没有答案