应用错误收集

时间：2012-01-24 04:50:02

标签： ocr tesseract post-processing

我正在设置一个服务器，使用tesseract进行大量自动化OCR，我想对结果进行一些后处理。

在理论方面有很多关于此的资源，但在实际方面我没有找到太多资源。

我想你可以做一些基本的事情，比如：

我没有给出这么多的想法，但OCR的文本被输入搜索系统，所以保持wordmap小是一件好事，就像消除或修复明显错误的单词一样。

如果重要，内容本身就是用英文写的法庭文件。所以有时候会有专门的名字，但是单词的种类可能并不多，字体可能非常稳定。

我应该知道的任何指针或好资源？

答案 0 :(得分：-1)

每个OCR引擎都有自己的一组常见错误，这些错误也取决于文档中的字体，扫描质量，使用的dpi，颜色背景和使用的图像预处理，如去除斑点，去歪斜，删除线。您只会通过执行大量测试运行并分析结果来查找一组常见错误，从而了解这些错误。

使用正确的扫描仪设置和图像预处理算法可以显着提高OCR结果。不要低估这一部分。

如果文本主要是英文单词，那么带有模糊类型查找系统的好词典将非常有用。其他有用的技术是三元分析和使用第二个OCR引擎进行投票。