Question

我有一个小的python脚本，它从网页上抓取一些数据，但网页上的数据在点击网页后会发生变化。是否可以打开网址等待几秒钟然后返回数据？我的代码在下面，我试图添加一些睡眠命令，但我怀疑它是那么简单....任何想法？

url = "http://www.test.com"
        cj = cookielib.CookieJar()
        opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
        req = urllib2.Request(url)
        req.add_header('User-Agent','Mozilla/5.0')
#       time.sleep(5)
        resp = opener.open(req)
#       time.sleep(5)
        htmltext = resp.read()

Answer 1

睡眠命令应该有效。 IIRC，read命令以当前状态读取站点，因此如果网站从您打开站点的时间变为您读取它的时间，则read（）函数应该获取最新的html代码。

Urllib2 url打开网页和获取HTML数据之间的延迟

1 个答案: