基本OCR后处理(拼写纠正器)

时间:2012-01-24 04:50:02

标签: ocr tesseract post-processing

我正在设置一个服务器,使用tesseract进行大量自动化OCR,我想对结果进行一些后处理。

在理论方面有很多关于此的资源,但在实际方面我没有找到太多资源。

我想你可以做一些基本的事情,比如:

  • 连续删除三个相同的字母
  • 消除所有元音的'单词'
  • 消除'字数'超过一定长度

我没有给出这么多的想法,但OCR的文本被输入搜索系统,所以保持wordmap小是一件好事,就像消除或修复明显错误的单词一样。

如果重要,内容本身就是用英文写的法庭文件。所以有时候会有专门的名字,但是单词的种类可能并不多,字体可能非常稳定。

我应该知道的任何指针或好资源?

1 个答案:

答案 0 :(得分:-1)

每个OCR引擎都有自己的一组常见错误,这些错误也取决于文档中的字体,扫描质量,使用的dpi,颜色背景和使用的图像预处理,如去除斑点,去歪斜,删除线。您只会通过执行大量测试运行并分析结果来查找一组常见错误,从而了解这些错误。

使用正确的扫描仪设置和图像预处理算法可以显着提高OCR结果。不要低估这一部分。

如果文本主要是英文单词,那么带有模糊类型查找系统的好词典将非常有用。其他有用的技术是三元分析和使用第二个OCR引擎进行投票。