应用错误收集

我正在使用商用OCR引擎清理OCR文档。它的输出质量很差，因为它经常产生未完成的字符文本，并且由于非常嘈杂的背景而在文本中产生拼写错误。

我们的第一种方法是使用正则表达式应用一些拼写校正。我们的第二种方法是创建一个错误库

| ------------ 1 -------------------------- | ------ --2 ---------- | -------- ---------- 3

|错误拼写单词的图像分割|拼错的单词|人为矫正

|单词的图像分割clcar |明确

第二种方法的想法类似于Google reCaptcha项目。我们会要求很多人校对OCR编辑的文本。为了加快此过程，将仅选择拼写错误的单词（通过拼写校正器识别）。他们将在pdf文件中对拼写错误的单词进行图像分割，并且必须手动更正

但是，我们不知道如何将OCR文档中拼写错误的单词映射回原始PDF文件。

此问题的最佳做法是什么？有没有开源实现做这种事情（OpenCv，算法，等等）？