Web Scraping Max Retries Rejected

时间:2016-07-21 15:29:14

标签: python web-scraping http-headers python-requests screen-scraping

我在抓取某些网站时遇到问题,而其他网站则有效。例如,这有效:

page = requests.get('https://wsj.com/', proxies=proxydict)

但这并不是:

page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict)

我得到了#34;最高重试次数#34;错误,即使我只刮了1页(并且以前没有抓过它)。

我已经尝试使用标题来获取不会刮掉但却无法使用的网站。我应该使用特定的标题吗?如何抓取我上面显示的第二个网站(www.privateequityinternational.com)?谢谢。

1 个答案:

答案 0 :(得分:1)

问题是页面是通过浏览器中的 http 而不是 https 提供的,当您尝试使用https访问该页面时,Google会收到警告:

userOcean = "gulf" 
ocean_measure[userOcean] == ocean_measure["gulf"]