我正在使用商用OCR引擎清理OCR文档。它的输出质量很差,因为它经常产生未完成的字符文本,并且由于非常嘈杂的背景而在文本中产生拼写错误。
我们的第一种方法是使用正则表达式应用一些拼写校正。 我们的第二种方法是创建一个错误库
| ------------ 1 -------------------------- | ------ --2 ---------- | -------- ---------- 3
|错误拼写单词的图像分割|拼错的单词|人为矫正
|单词的图像分割clcar |明确
第二种方法的想法类似于Google reCaptcha项目。我们会要求很多人校对OCR编辑的文本。为了加快此过程,将仅选择拼写错误的单词(通过拼写校正器识别)。他们将在pdf文件中对拼写错误的单词进行图像分割,并且必须手动更正
但是,我们不知道如何将OCR文档中拼写错误的单词映射回原始PDF文件。
此问题的最佳做法是什么?有没有开源实现做这种事情(OpenCv,算法,等等)?