Question

我正在尝试抓取一个网站“https://coinatmradar.com/”。我正在使用请求、beautifulsoup 和 selenium（在需要的地方）来抓取数据。但是过了一会儿，我的 ip 被网站屏蔽了，因为它使用了 cloudflare 保护。

country_url = "https://coinatmradar.com/country/226/bitcoin-atm-united-states/"
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
response=requests.get(country_url, headers=headers)
soup=BeautifulSoup(response.content,'lxml')

这是我正在使用的代码部分。我收到了 403 响应。有没有其他方法可以让它同时处理请求和硒？

Answer 1

尝试像这样设置标题：

headers = {'Cookie':'_gcar_id=0696b46733edeac962b24561ce67970199ee8668', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

使用请求和硒在 python 中抓取网站时出现错误 403

1 个答案: