使用python从html代码获取CAPTCHA URL

时间:2014-10-29 19:55:33

标签: javascript python python-2.7

我需要从web page获取CAPTCHA网址:

这是来自上述网站的html代码的一部分,其中包含capatcha url:

<span id="recaptcha_image"></span></p><p><label></label><span>
<a href="javascript:Recaptcha.reload ();" id="recaptcha_reload_btn"></a>
</span></p>

但是我无法做到这一点因为CAPTCHA网址看起来像是javascript代码

javascript:Recaptcha.reload ();

所以我怎么能用python获取url。? 我希望有人帮助我。

谢谢

1 个答案:

答案 0 :(得分:0)

一般来说,您可以使用某种Web驱动程序检测工具来推送验证码按钮,然后捕获创建的html。在python中,您可以使用构建在selenium“raw”webdriver之上的splinter,使用一个漂亮的pythonic api,尽管还有更多类似的选项。

但我担心你遗漏了一些基本的东西。 captch并没有真正的“url”。使用“url”(可能在一个锚元素中)来触发js代码,这将创建实际的验证码html(可能内部没有链接,但有图像)。如果这就是您所追求的,那么我上面提到的方法会对您有所帮助。如果没有..那么我不确定我是否完全理解你的问题。

<强>更新

没有真正的“验证码网址”所以这是一个疯狂的追逐..验证码是一个图像(在这个特定的网页中)。您所指的网址是重新生成验证码的网址,并不是真正的网址,而是触发预编码js功能的方法。

如果您尝试点击它,为了重新生成图像,那么上面的方法是要走的路,如果您的意思是获取图像src。然后,你将不得不生成图像,然后获取html并解析它为src。

祝你好运