c#OCR无法识别数字(tesseract 2)

时间:2011-03-29 15:45:17

标签: c# ocr tesseract

我正在尝试从以下内容中提取数字:http://img96.imageshack.us/img96/5630/aelgg.png

失败了,我得到了作为回报。我正在使用谷歌的tesseract 2,使用C#(开源c#包装器),现在我想知道,这个图像是否太难用于OCR?

因为数字直截了当。

你有没有其他的OCR引擎可以解决这个问题?

修改

我也尝试使用 Asprise OCR http://asprise.com/product/ocr/selector.php),但它也无法解析图像......

2 个答案:

答案 0 :(得分:7)

我建议调整大小。我在IE中将此页面缩放到200%,截取屏幕截图,将其打印为PDF并将其导入到使用tessnet的程序中。苔丝钉了它!除非我读错了#:()

虽然置信度= 140(如果你想知道,首选100以下)。当然,当我尝试原始尺寸时,我没有得到〜;我得到大约1/2的#s,一堆字母和其他垃圾。不够好,但更好。

t2似乎喜欢图像一定的大小。

我的程序会进行处理以使其正常工作。建议使用.net GDI +转换为32位,使用插值模式调整高质量双立方。这似乎“填补了空白”。

使用尺寸有效的游戏 - 我发现,太大或太小,并且tesseract表现不同。

这两个问题都是预处理,这很简单,你可以试试这个问题;但是,我知道如何调整大小和插值;我不知道如何OCR!所以我愿意和解。

答案 1 :(得分:1)

你的图像分辨率太低 - 96 DPI,也许是截图。将其重新调整为300 DPI,tessnet2应该能够识别它。