我尝试使用请求对象使用scrapy抓取网站。我通过需要身份验证的代理连接到互联网,此身份验证阻止我抓取网站:
DEBUG: Crawled (400) <GET http://auth4/robots.txt> (referer: None)
如何在代理中进行身份验证或跳过它来访问网站?
谢谢!
答案 0 :(得分:0)
我认为您需要设置用户代理。尝试将用户代理设置为'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:39.0) Gecko/20100101 Firefox/39.0'
在settings.py
修改:查看How to use scrapy with an internet connection through a proxy with authentication