我正在设置一个服务器,使用tesseract进行大量自动化OCR,我想对结果进行一些后处理。
在理论方面有很多关于此的资源,但在实际方面我没有找到太多资源。
我想你可以做一些基本的事情,比如:
我没有给出这么多的想法,但OCR的文本被输入搜索系统,所以保持wordmap小是一件好事,就像消除或修复明显错误的单词一样。
如果重要,内容本身就是用英文写的法庭文件。所以有时候会有专门的名字,但是单词的种类可能并不多,字体可能非常稳定。
我应该知道的任何指针或好资源?
答案 0 :(得分:-1)
每个OCR引擎都有自己的一组常见错误,这些错误也取决于文档中的字体,扫描质量,使用的dpi,颜色背景和使用的图像预处理,如去除斑点,去歪斜,删除线。您只会通过执行大量测试运行并分析结果来查找一组常见错误,从而了解这些错误。
使用正确的扫描仪设置和图像预处理算法可以显着提高OCR结果。不要低估这一部分。
如果文本主要是英文单词,那么带有模糊类型查找系统的好词典将非常有用。其他有用的技术是三元分析和使用第二个OCR引擎进行投票。