限制每个域的urlfetch速度

时间:2015-06-10 06:48:10

标签: python google-app-engine urlfetch

有没有办法限制每个时间单位urlfetch对任何单个服务器的请求数量?

我不小心忘记了我正在抓取的网站,因为异步urlfetch api使其分支出去,直到它死亡(每个请求平均产生多个新请求)。日志包含~200 DeadlineExceeded,每个日期之间的毫秒数。

1 个答案:

答案 0 :(得分:0)

您可以使用time.sleep()方法。暂停执行当前线程达到给定的秒数。

import time
[...]
for u in urls:
    urllib2.urlopen(u, timeout=4)
    time.sleep(1)

https://docs.python.org/2/library/time.html#time.sleep