Question

我正在尝试使用此网站的几页内容。

我已经尝试过有关此网站的各种堆栈溢出答案，但均无效果。网站上的所有页面仅返回403。我尝试更改ip和更改useragents

headers = {
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
            "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
            "cache-control": "no-cache",
            "pragma": "no-cache",
            "upgrade-insecure-requests": "1"
        }

yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)

如何使我的蜘蛛成功抓取该网站？我已经检查了这个网站的运行状况，即使禁用了javascript也仍然无法刮擦：（

Answer 1

该网站正在使用cloudflare ddos保护服务。

尝试在标题中使用某些标题，例如user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36

您必须说服服务器您是浏览器，而不是爬虫。

某些cloudflare ddos保护需要运行javascript。还有一些需要验证码的机器无法应答

首先，将您的回复写到文件中，然后查看该回复以找到哪种保护措施。其次，尝试解决该问题

无法抓取https://angel.co/

1 个答案: