应用错误收集

我编写了一个抓取工具来抓取网站上的许多网页，打开的代码如下：

def url_open(url):
    req = urllib.request.Request(headers=header, url=url)
    print('Getting content from {0}'.format(url))
    while True:
        try:
            response = urllib.request.urlopen(req)
            break
        except:
            continue
    contents = response.read().decode('utf8')
    return contents

有时程序会在打印行停止，但仍在运行。所以我认为这个页面很糟糕，但我可以在浏览器中打开它。当我再次运行我的爬虫时，这个页面可能会再次打开。

上次我使用相同的代码抓取其他网站时，发生了同样的问题。

如何编写抓取工具来抓取多个页面？这是发生在你身上的吗？如何处理？

Python抓取工具无法打开页面，但浏览器可以打开

0 个答案: