应用错误收集

如何OCR电子邮件地址

时间：2014-10-30 06:17:29

标签： c# image-processing ocr tesseract emgucv

我正在尝试OCR并从图像中提取电子邮件。图像应该有一行文本，即电子邮件地址。

我正在使用EmguCV.OCR从这些图像中提取文本（电子邮件地址）。目标是获得100％准确的结果。

我们可以修复文本的字体和大小。例如Ariel，12pt，这样所有的图像都会用Ariel 12pt写的电子邮件用白色背景上的黑色。

问题是EmguCV中的Tesseract OCR无法正确识别文本。它只能准确识别80％的字符。

我正在使用Leptonica库进行预处理。

以下是我要识别的一些示例图片。 enter image description here

有没有办法达到100％准确度的目标

2 个答案:

答案 0 :(得分：2)

使用这些样本图像，我可以建议两种方法来解决同样的问题。在那些图像中存在JPEG伪像（the result of lossy compression）。因此，字母相互连接（在程序中放大图像，你可以看到实际的像素，windows照片查看器对我来说很好）。 TesseractOCR依赖于字母之间的间距（它使用连接的组件）来进行字符识别。连接的任何部分都会抛出识别过程，这意味着它会尝试将“co”的组合识别为一个字母。

两种可能的解决方案：

我不确定已经完成了哪些预处理步骤，但是您需要进行一些阈值处理以去除图像上较浅的阴影（断开字符）。但是，您必须小心这一点，因为它可能会删除超出您想要的内容。
如果在此过程中的任何时候您拥有更高分辨率的图像或非jpeg /有损格式（即png），请在执行其他处理步骤时将其保留为此格式。尽量避免可能发生的任何有损压缩。听起来好像这些图像不是如上所示。这是一个更好的解决方案，因为你不会冒失去数据的风险。

答案 1 :(得分：-1)

我尝试使用ABBYY Cloud OCR SDK识别您的图像，并获得100％的准确率。您可以使用Demo Tool来确保识别准确性。

我为ABBYY工作，如果您需要，可以为您提供有关我们技术的更多信息。

OCR results