从扫描的文档提高OCR准确性

时间:2011-01-11 14:02:39

标签: image-processing ocr image-scanner text-recognition

我正在使用标准的Brother A3多功能扫描大量A3文档,然后使用FineReader Pro对图像进行OCR扫描。

但是,我在识别的字符中出现了很多错误,还有很多非字母数字的奇怪字符。

有人可以给我任何提示,以编程方式提高OCR准确度,对扫描图像进行预处理,或对已识别文本进行后处理吗?


修改:Find a sample pdf。它包括一些样本图像,我从中得到最差的结果。

1 个答案:

答案 0 :(得分:2)

您是否有可以在某处发布的样本图像,然后我们可以快速告诉您导致大多数问题的原因。 FineReader是最好的OCR引擎之一,所以肯定有理由说明你的效果不佳。

这可能与较差的对比度和阈值设置,图像歪斜,扫描仪中的脏辊,复杂和彩色背景,抖动背景,字体太小,扫描dpi太低等等有关...

看到附图后,有一些小问题。

  1. 背景页面上有很多脏斑点。 FineReader似乎在你的图像上做了一个合理的工作。
  2. 有一些轻微的歪斜,但这不会造成问题。
  3. FineReader与用于列标题的BOLD高Arial字体混淆 4一个大问题似乎是页面的底部区域,对比度差,图像模糊。这似乎是扫描仪的一个问题,但可能是由于打印问题。
  4. 印刷很差,我猜它是来自报纸的扫描。您的大多数错误都是由扫描问题引起的,因此很难以编程方式改进结果。

    首先,我会尝试使用稍高的分辨率扫描灰度图像,看看是否有帮助。 FineReader适用于灰度图像。如果您必须有黑白图像,请查看扫描仪驱动程序是否包含动态阈值设置并将其打开。

    对于任何OCR引擎,您的图像都不是一件容易的事。如果您可以改进扫描,您将获得更好的结果。第3页右下角有很多噪音。

    您使用的是什么版本的FineReasder? FR10可能会比以前的版本提供更好的结果。