Python:urlopen的结果不一致

时间:2015-02-19 13:50:14

标签: python html web-crawler urllib2

我使用urlopen中的urllib2功能,每次阅读同一页面时我都会得到不同的结果。代码:

import urllib2
for i in range(5):
    response = urllib2.urlopen('http://wlstorage.net/file/freddy-balzan-emails-2005-2008/')
    html = response.read()
    print len(html), 'first chars:', html[:10] ,'last chars:', html[-10:]

输出:

zvi@zvi-S400CA:~/workspace/crawler$ python mini_test.py 
14259 first chars: <!-- MHonA last chars: E1;n</em> 
15707 first chars: <!-- MHonA last chars: 5, 2008)<b
43219 first chars: <!-- MHonA last chars: ="07081" h
37427 first chars: <!-- MHonA last chars: 01.html">F
43219 first chars: <!-- MHonA last chars: ="07081" h

导致这种情况的原因是什么以及我如何解决这个问题,以便获得整个页面而不仅仅是其中的一小部分?

1 个答案:

答案 0 :(得分:2)

尝试使用requests模块

>>> import requests
>>> response = requests.get('http://wlstorage.net/file/freddy-balzan-emails-2005-2008/')
>>> len(response.text)
68361