我正在尝试制作一个网络抓取工具,使用我的凭据登录https网站,然后抓取网站的某些部分。我在python中使用Scrapty,但我不是100%确定是否可能,因为在网站上我没有看到任何关于https的内容,只有以下内容:
*cookies and session handling
*HTTP compression
*HTTP authentication
*HTTP cache
如果,那么任何想法如何开始?
答案 0 :(得分:0)
Scrapy将支持https by default,只需确保在启动刮刀时在网址中使用正确的协议。
答案 1 :(得分:0)
这是我的example如何进行HTTPS或HTTP登录。首先,您需要从页面收集formdata。通常它需要从页面获取隐藏的输入。然后你需要使用FormRequest发送formdata dict。