如何在scrapy运行之前手动进行身份验证?

时间:2019-06-10 02:08:54

标签: python scrapy

我想在登录之前抓取一个使用大量验证码挑战的网页(例如,依次显示20个以上的挑战)。

我如何用我的实际手(即不使用Selenium等)解决验证码来登录,然后运行网络抓取。我已经尝试过在Scrapy文档,教程和网络搜索中找到能起到相同作用的代码,但一无所获。

没有执行我要问的事情的强制性代码:

sub("///", "", VRMMs)

#[1] "201905031740 METAR KDCA 031740Z AUTO 11KT 10SM SCT041 24/18 A3000 RMK T02400180 MADISHF"

我希望它在手动进行身份验证后才能启动。但是,它开始了,但我还没有登录,所以我无法走得更远。

1 个答案:

答案 0 :(得分:1)

  1. 您只需在浏览器中手动进行身份验证
  2. 然后打开浏览器的DevTools
  3. 导航到“网络”标签
  4. 重新加载要抓取的页面
  5. 然后在“网络”标签中,右键单击第一个请求,然后寻找Copy as cURL (bash)选项
  6. 转到https://curl.trillworks.com/并粘贴您的代码
  7. 复制标题和cookie并完成工作

PS:我建议在Mozilla Firefox中执行此操作,因为有时Chrome的DevTools在https://curl.trillworks.com/

中会产生错误的结果