如何OCR电子邮件地址

时间:2014-10-30 06:17:29

标签: c# image-processing ocr tesseract emgucv

我正在尝试OCR并从图像中提取电子邮件。图像应该有一行文本,即电子邮件地址。

我正在使用EmguCV.OCR从这些图像中提取文本(电子邮件地址)。目标是获得100%准确的结果。

我们可以修复文本的字体和大小。例如Ariel,12pt,这样所有的图像都会用Ariel 12pt写的电子邮件用白色背景上的黑色。

问题是EmguCV中的Tesseract OCR无法正确识别文本。它只能准确识别80%的字符。

我正在使用Leptonica库进行预处理。

以下是我要识别的一些示例图片。enter image description here enter image description here enter image description here enter image description here enter image description here

有没有办法达到100%准确度的目标

2 个答案:

答案 0 :(得分:2)

使用这些样本图像,我可以建议两种方法来解决同样的问题。在那些图像中存在JPEG伪像(the result of lossy compression)。因此,字母相互连接(在程序中放大图像,你可以看到实际的像素,windows照片查看器对我来说很好)。 TesseractOCR依赖于字母之间的间距(它使用连接的组件)来进行字符识别。连接的任何部分都会抛出识别过程,这意味着它会尝试将“co”的组合识别为一个字母。

两种可能的解决方案:

  1. 我不确定已经完成了哪些预处理步骤,但是您需要进行一些阈值处理以去除图像上较浅的阴影(断开字符)。但是,您必须小心这一点,因为它可能会删除超出您想要的内容。

  2. 如果在此过程中的任何时候您拥有更高分辨率的图像或非jpeg /有损格式(即png),请在执行其他处理步骤时将其保留为此格式。尽量避免可能发生的任何有损压缩。听起来好像这些图像不是如上所示。这是一个更好的解决方案,因为你不会冒失去数据的风险。

答案 1 :(得分:-1)

我尝试使用ABBYY Cloud OCR SDK识别您的图像,并获得100%的准确率。 您可以使用Demo Tool来确保识别准确性。

我为ABBYY工作,如果您需要,可以为您提供有关我们技术的更多信息。

OCR results