Python抓取工具无法打开页面,但浏览器可以打开

时间:2016-05-03 16:38:45

标签: python web-crawler

我编写了一个抓取工具来抓取网站上的许多网页,打开的代码如下:

def url_open(url):
    req = urllib.request.Request(headers=header, url=url)
    print('Getting content from {0}'.format(url))
    while True:
        try:
            response = urllib.request.urlopen(req)
            break
        except:
            continue
    contents = response.read().decode('utf8')
    return contents

有时程序会在打印行停止,但仍在运行。所以我认为这个页面很糟糕,但我可以在浏览器中打开它。当我再次运行我的爬虫时,这个页面可能会再次打开。

上次我使用相同的代码抓取其他网站时,发生了同样的问题。

如何编写抓取工具来抓取多个页面?这是发生在你身上的吗?如何处理?

0 个答案:

没有答案