我正在使用标准的Brother A3多功能扫描大量A3文档,然后使用FineReader Pro对图像进行OCR扫描。
但是,我在识别的字符中出现了很多错误,还有很多非字母数字的奇怪字符。
有人可以给我任何提示,以编程方式提高OCR准确度,对扫描图像进行预处理,或对已识别文本进行后处理吗?
修改:Find a sample pdf。它包括一些样本图像,我从中得到最差的结果。
答案 0 :(得分:2)
您是否有可以在某处发布的样本图像,然后我们可以快速告诉您导致大多数问题的原因。 FineReader是最好的OCR引擎之一,所以肯定有理由说明你的效果不佳。
这可能与较差的对比度和阈值设置,图像歪斜,扫描仪中的脏辊,复杂和彩色背景,抖动背景,字体太小,扫描dpi太低等等有关...
看到附图后,有一些小问题。
印刷很差,我猜它是来自报纸的扫描。您的大多数错误都是由扫描问题引起的,因此很难以编程方式改进结果。
首先,我会尝试使用稍高的分辨率扫描灰度图像,看看是否有帮助。 FineReader适用于灰度图像。如果您必须有黑白图像,请查看扫描仪驱动程序是否包含动态阈值设置并将其打开。
对于任何OCR引擎,您的图像都不是一件容易的事。如果您可以改进扫描,您将获得更好的结果。第3页右下角有很多噪音。
您使用的是什么版本的FineReasder? FR10可能会比以前的版本提供更好的结果。