在管理员登录页面上绕过我自己的验证码

时间:2018-08-28 14:27:24

标签: python node.js web-scraping recaptcha

我使用NodeJ,Express,MONGODB和几个npm软件包构建了一个网站。 我添加了一个在后台使用passport-js的管理员登录页面,最重要的是,我向表单本身添加了验证码(谷歌验证码)。 以上所有方法都可以正常工作,但是最近我使用python创建了一个小型Web爬虫,该爬虫使用来自管理控制面板的POST请求将帖子添加到我的站点(这意味着该爬虫以admin身份登录到该站点。在表单上,​​刮板不再起作用,因为它无法绕过那里的验证码。

scraper使用请求python库并使用有效负载来连接填写管理表单登录名。 我可以对验证码进行某种例外处理,以使刮板“通过”吗?或者,如果您还有其他解决方法(让刮板发出POST请求),我就不厌其烦了:)

谢谢!

1 个答案:

答案 0 :(得分:0)

我想这取决于刮板的登录方式,它是否使用硒之类的东西来模拟用户操作并单击表单按钮?

为什么抓取工具需要使用表格来发布数据?抓取工具不能直接将数据发布到端点或形成操作变量吗?

如果当前解决方案无法解决此问题,则还可以为刮板创建一条新的使用路线,从而无需通过表单中的验证码即可放置刮板数据这样进入站点/存储。不过,请确保同时向该路由添加身份验证,可能不希望每个人都可以发布更多数据。