应用错误收集

我进入了一个我想摆脱的验证码网站。这是一些示例图像

Captcha1

Captcha2

由于背景是静态的，而且这个词是由计算机生成的非扭曲字符，我相信它是非常可行的。由于直接将图像传递给Tesseract（OCR引擎）并不会产生积极的结果。我想在OCR之前删除验证码背景。

我尝试使用Python-PIL

进行多种背景删除方法

方法1和2会给我一个像这样的图像

enter image description here

看起来很接近，但即使在删除了顶部和底部的点行之后，Tesseract也无法识别该角色。

这是掩模图像

enter image description here

这是应用蒙版并删除灰线的图像

Background Mask

然而，盲目地应用这个掩码会在验证码字符中产生一些“白洞”。而Tesseract仍未能找到这些词语。

有没有更好的方法去除静态背景？

最后，我怎样才能将过滤后的图像分割为单个字符的6个图像？非常感谢。