Urllib2 url打开网页和获取HTML数据之间的延迟

时间:2015-03-10 21:42:44

标签: python python-2.7 urllib2

我有一个小的python脚本,它从网页上抓取一些数据,但网页上的数据在点击网页后会发生变化。是否可以打开网址等待几秒钟然后返回数据?我的代码在下面,我试图添加一些睡眠命令,但我怀疑它是那么简单....任何想法?

url = "http://www.test.com"
        cj = cookielib.CookieJar()
        opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
        req = urllib2.Request(url)
        req.add_header('User-Agent','Mozilla/5.0')
#       time.sleep(5)
        resp = opener.open(req)
#       time.sleep(5)
        htmltext = resp.read()

1 个答案:

答案 0 :(得分:0)

睡眠命令应该有效。 IIRC,read命令以当前状态读取站点,因此如果网站从您打开站点的时间变为您读取它的时间,则read()函数应该获取最新的html代码。