我编写了一个抓取工具来抓取网站上的许多网页,打开的代码如下:
def url_open(url):
req = urllib.request.Request(headers=header, url=url)
print('Getting content from {0}'.format(url))
while True:
try:
response = urllib.request.urlopen(req)
break
except:
continue
contents = response.read().decode('utf8')
return contents
有时程序会在打印行停止,但仍在运行。所以我认为这个页面很糟糕,但我可以在浏览器中打开它。当我再次运行我的爬虫时,这个页面可能会再次打开。
上次我使用相同的代码抓取其他网站时,发生了同样的问题。
如何编写抓取工具来抓取多个页面?这是发生在你身上的吗?如何处理?