无法抓取https://angel.co/

时间:2019-08-26 22:45:22

标签: python curl scrapy python-requests scrapy-shell

我正在尝试使用此网站的几页内容。

我已经尝试过有关此网站的各种堆栈溢出答案,但均无效果。网站上的所有页面仅返回403。我尝试更改ip和更改useragents

headers = {
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
            "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
            "cache-control": "no-cache",
            "pragma": "no-cache",
            "upgrade-insecure-requests": "1"
        }

yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)

如何使我的蜘蛛成功抓取该网站?我已经检查了这个网站的运行状况,即使禁用了javascript也仍然无法刮擦:(

1 个答案:

答案 0 :(得分:0)

该网站正在使用cloudflare ddos​​保护服务。

尝试在标题中使用某些标题,例如user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36

您必须说服服务器您是浏览器,而不是爬虫。

某些cloudflare ddos​​保护需要运行javascript。还有一些需要验证码的机器无法应答

首先,将您的回复写到文件中,然后查看该回复以找到哪种保护措施。其次,尝试解决该问题