如何使用Python从网站上抓取文本

时间:2016-01-02 22:09:00

标签: python web-scraping beautifulsoup python-requests text-mining

我使用' request'在python中编写了一个代码。和' beautifulSoup' api从谷歌返回前100个网站的文本数据。 嗯,它在大多数网站上运行良好,但它会给那些稍后回复或根本没有响应的人提供错误 我收到此错误

引发MaxRetryError(_pool,url,error或ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError:HTTPConnectionPool(host =' www.lfpress.com',port = 80):使用url:/ 2015/11/06 / fair-with-a超出最大重试次数-flare-samosas-made-easy(由NewConnectionError引起(':无法建立新连接:[Errno 11001] getaddrinfo failed',))

我是否应该更改在请求API中编写的代码?或者我需要使用一些代理?我该如何离开该网站继续下一个网站?由于错误导致我的执行停止。

1 个答案:

答案 0 :(得分:2)

在您的调用周围添加“try except”块以捕获该异常,如果您不关心错误,请继续:

import requests
try:
    requests.get('http://stackoverflow.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
    print repr(e)