我有一个小的python脚本,它从网页上抓取一些数据,但网页上的数据在点击网页后会发生变化。是否可以打开网址等待几秒钟然后返回数据?我的代码在下面,我试图添加一些睡眠命令,但我怀疑它是那么简单....任何想法?
url = "http://www.test.com"
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
req = urllib2.Request(url)
req.add_header('User-Agent','Mozilla/5.0')
# time.sleep(5)
resp = opener.open(req)
# time.sleep(5)
htmltext = resp.read()
答案 0 :(得分:0)
睡眠命令应该有效。 IIRC,read命令以当前状态读取站点,因此如果网站从您打开站点的时间变为您读取它的时间,则read()函数应该获取最新的html代码。