我正在将带有tesseract的旧报纸拒之门外,我对结果总体上感到满意。不过,我注意到,tesseract通常会猜测似乎应该用字典检查或某种概率性猜测(例如,像手机上的自动更正)那样容易捕获和纠正的非单词。例如,在下面的段落中,tesseract猜测连字单词{
"id": 1,
"worker_id": "Admin",
"first_name": "Eba",
"father_name": "Aleamyehu",
"grand_father_name": "Tufa",
"email": "ebaaleamyhu3@gmail.com",
"phone": "091086788",
"gender": "Male",
"role_id": 1,
"isFirstTime": 1,
"profile_pic": "avatar.jpg",
"deleted_at": null,
"created_at": null,
"updated_at": null
}
的{{1}}和ar-resis
的{{1}}。
OCR输出
ar-rests
如果您查看附件中的图像,则两者都是基于像素的合理猜测(也就是说,在bricf
中倒数第二个字符似乎更像brief
,而不是into the air, and making ar-
resis, The bricf battle followed
-bombarding of at least three po-
)。 brief
并不是英语词典中会出现的单词,而且与该单词非常接近。
这引起了两个相关的问题。首先,是否有一个配置选项会增加tesseract将c
转换为e
的可能性?我尝试增加对非字典词(bricf
)的惩罚,但没有明显效果。
第二,是否有一个选项可能会诱使tesseract尝试将诸如bricf
之类的带连字符的单词重新组合为brief
(理想情况下,然后与字典进行比较以猜测language_model_penalty_non_dict_word
)?