Question

我在抓取某些网站时遇到问题，而其他网站则有效。例如，这有效：

page = requests.get('https://wsj.com/', proxies=proxydict)

但这并不是：

page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict)

我得到了＃34;最高重试次数＃34;错误，即使我只刮了1页（并且以前没有抓过它）。

我已经尝试使用标题来获取不会刮掉但却无法使用的网站。我应该使用特定的标题吗？如何抓取我上面显示的第二个网站（www.privateequityinternational.com）？谢谢。

Answer 1

问题是页面是通过浏览器中的 http 而不是 https 提供的，当您尝试使用https访问该页面时，Google会收到警告：

userOcean = "gulf" 
ocean_measure[userOcean] == ocean_measure["gulf"]