我正在尝试使用此网站的几页内容。
我已经尝试过有关此网站的各种堆栈溢出答案,但均无效果。网站上的所有页面仅返回403。我尝试更改ip和更改useragents
headers = {
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
"accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
"cache-control": "no-cache",
"pragma": "no-cache",
"upgrade-insecure-requests": "1"
}
yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)
如何使我的蜘蛛成功抓取该网站?我已经检查了这个网站的运行状况,即使禁用了javascript也仍然无法刮擦:(
答案 0 :(得分:0)
该网站正在使用cloudflare ddos保护服务。
尝试在标题中使用某些标题,例如user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36
您必须说服服务器您是浏览器,而不是爬虫。
某些cloudflare ddos保护需要运行javascript。还有一些需要验证码的机器无法应答
首先,将您的回复写到文件中,然后查看该回复以找到哪种保护措施。其次,尝试解决该问题