如何使用captcha
解决tesseract
?
我已经使用Imagemagick对图像进行了预处理,但到目前为止我还没有解决这个问题。
您可以在下面找到我正在使用的图片:
我使用以下命令作为西里尔字母包括:
tesseract output.png test -l bul+eng
答案 0 :(得分:0)
Tesseract不是一个识别所有文本和数字的一体化OCR工具,这远非秘密。事实上,这不可能是事实。一旦您处理了亮度,清晰度和透视度差异很大的真实文档。在您的情况下,它相对简单,因为角色不重叠,背景与背景明显不同。所以,这是个好消息!
首先,我开始使用Tesseract库,而不是依赖它在终端上的功能。我的意思是没关系,但它肯定缺乏灵活性,因为它限制了你在终端上做的一些图像操作。虽然ImageMagick提供了一个广泛的图像处理工具,但根据我的经验,您可以在代码中使用这些库,即ImageMagick或OpenCV,从而获得更好的结果。
为了让您快速了解tesseract并避免重复自己,我会将one of my previous answers链接到类似的问题。我不知道你对python有多熟悉,但我希望你能跟上。