我在抓取某些网站时遇到问题,而其他网站则有效。例如,这有效:
page = requests.get('https://wsj.com/', proxies=proxydict)
但这并不是:
page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict)
我得到了#34;最高重试次数#34;错误,即使我只刮了1页(并且以前没有抓过它)。
我已经尝试使用标题来获取不会刮掉但却无法使用的网站。我应该使用特定的标题吗?如何抓取我上面显示的第二个网站(www.privateequityinternational.com)?谢谢。
答案 0 :(得分:1)
问题是页面是通过浏览器中的 http 而不是 https 提供的,当您尝试使用https访问该页面时,Google会收到警告:
userOcean = "gulf"
ocean_measure[userOcean] == ocean_measure["gulf"]