有没有办法限制每个时间单位urlfetch对任何单个服务器的请求数量?
我不小心忘记了我正在抓取的网站,因为异步urlfetch api使其分支出去,直到它死亡(每个请求平均产生多个新请求)。日志包含~200 DeadlineExceeded
,每个日期之间的毫秒数。
答案 0 :(得分:0)
您可以使用time.sleep()
方法。暂停执行当前线程达到给定的秒数。
import time
[...]
for u in urls:
urllib2.urlopen(u, timeout=4)
time.sleep(1)