验证码的目的是让计算机难以阅读,因此许多失败的尝试很自然。
然而,这个例子似乎缺乏足够的熵来阻止任何OCR。在传递给OCR引擎之前,请使用降噪预处理技术的任意组合。
例如:掉落颜色(我们不需要它),略微模糊&将形状一起侵蚀,然后放下轮廓灰色。
convert TBWyI.jpg -colorspace Gray \
-blur 3x1 -morphology Erode Diamond \
-level 20% output.jpg
哪个产生......
Tesseract对此非常满意。
tesseract output.jpg stdout
#=> '6DEAV