Question

我正在尝试制作一个网络抓取工具，使用我的凭据登录https网站，然后抓取网站的某些部分。我在python中使用Scrapty，但我不是100％确定是否可能，因为在网站上我没有看到任何关于https的内容，只有以下内容：

*cookies and session handling
*HTTP compression
*HTTP authentication 
*HTTP cache

如果，那么任何想法如何开始？

Answer 1

Scrapy将支持https by default，只需确保在启动刮刀时在网址中使用正确的协议。

Answer 2

这是我的example如何进行HTTPS或HTTP登录。首先，您需要从页面收集formdata。通常它需要从页面获取隐藏的输入。然后你需要使用FormRequest发送formdata dict。