如何使用tesseract -magickimage读取验证码

时间:2018-03-05 15:58:17

标签: imagemagick ocr tesseract captcha

我在使用ImageMagick - teserract读取验证码图像时遇到了一些问题。 尝试了很多选项而失败了。这种格式是否可以实际读取issueformat

提前致谢

1 个答案:

答案 0 :(得分:0)

验证码的目的是让计算机难以阅读,因此许多失败的尝试很自然。

然而,这个例子似乎缺乏足够的熵来阻止任何OCR。在传递给OCR引擎之前,请使用降噪预处理技术的任意组合。

例如:掉落颜色(我们不需要它),略微模糊&将形状一起侵蚀,然后放下轮廓灰色。

convert TBWyI.jpg -colorspace Gray \
        -blur 3x1  -morphology Erode Diamond \
        -level 20%  output.jpg

哪个产生......

output.jpg

Tesseract对此非常满意。

tesseract output.jpg stdout
#=> '6DEAV