让python在每20页抓取一次后休息60秒

时间:2012-05-14 09:55:14

标签: python time ip sleep

我正在尝试从中国微博新浪微博收集转推数据,您可以看到以下代码。但是,我遇到了IP请求超出限制的问题。

要解决这个问题,我必须为代码设置time.sleep()。你可以看到我试图在代码中添加一行'time.sleep(10)#来强制ip请求限制'。因此,python将在抓取转发页面后休眠10秒(一页包含200转推)。

但是,仍然不足以处理IP问题。

因此,我计划在每20页抓取一次后,更系统地让python睡眠60秒。您的想法将不胜感激。             ids = [3388154704688495,3388154704688494,3388154704688492]

        addressForSavingData= "C:/Python27/weibo/Weibo_repost/repostOwsSave1.csv"    
        file = open(addressForSavingData,'wb') # save to csv file 

        for id in ids:
            if api.rate_limit_status().remaining_hits >= 205:  
                for object in api.counts(ids=id):
                    repost_count=object.__getattribute__('rt')
                    print id, repost_count
                    pages= repost_count/200 +2  # why should it be 2? cuz python starts from 0  
                    for page in range(1, pages):
                        time.sleep(10)  # to opress the ip request limit
                        for object in api.repost_timeline(id=id, count=200, page=page):  # get the repost_timeline of a weibo
                            """1.1 reposts"""
                            mid = object.__getattribute__("id")
                            text = object.__getattribute__("text").encode('gb18030')     # add encode here
                            """1.2 reposts.user"""
                            user = object.__getattribute__("user") # for object in user
                            user_id = user.id                                   
                            """2.1 retweeted_status"""
                            rts = object.__getattribute__("retweeted_status")
                            rts_mid = rts.id  # the id of weibo     
                            """2.2 retweeted_status.user"""
                            rtsuser_id = rts.user[u'id']                                                        
                            try:
                                w = csv.writer(file,delimiter=',',quotechar='|', quoting=csv.QUOTE_MINIMAL)
                                w.writerow(( mid,
                                            user_id, rts_mid,
                                            rtsuser_id, text)) # write it out   
                            except:  # Exception of UnicodeEncodeError
                                pass
            elif api.rate_limit_status().remaining_hits < 205:  
                sleep_time=api.rate_limit_status().reset_time_in_seconds # time.time()
                print sleep_time, api.rate_limit_status().reset_time
                time.sleep(sleep_time+2)
        file.close()
        pass

2 个答案:

答案 0 :(得分:0)

你能不能只改编脚本?

我建议让你的脚本在每个请求之间休眠,而不是同时发出请求。并说超过一分钟..这样你也可以避免任何洪水禁令,这被认为是良好的行为。

如果服务器没有给你发送过多的请求,你的请求可能会让你更快地做事。


如果IP存在限制,有时它们不是很好的解决方案。例如,如果您运行apache http://opensource.adnovum.ch/mod_qos/限制带宽和连接,特别是限制;

  • 最大并发请求数
  • 带宽限制,例如每秒允许的最大请求数到URL或每秒下载的千字节的最大/最小值。
  • 限制每秒请求事件的数量
  • 通用请求行和标头过滤器,以拒绝未经授权的操作。
  • 请求正文数据限制和过滤
  • 来自单个IP源地址或动态保持活动控制的最大允许连接数。

您可能想要从这些开始。您可以使用您的请求发送引荐来源URL,并且只进行单个连接,而不是多个连接。

您也可以参考此question

答案 1 :(得分:0)

我找到了解决方案:

首先,给出一个整数,例如0

i = 0

第二,在for page循环中,添加以下代码

for page in range(1, 300):
    i += 1
    if (i % 25 ==0):
        print i, "find i which could be exactly divided by 25"