从tweepy数据

时间:2016-11-01 04:26:25

标签: python twitter tweepy

我有一个从tweepy流式传输的大型推文数据。我想从该数据中检索已删除的推文。 从tweepy中提取的每条推文都有一个唯一的ID,我使用 API.get_status(ID) 方法检索推文,如果成功检索推文则不会删除其他推文如果它引发异常,我认为推文被删除了。

auth = OAuthHandler(ckey,csecret)        
auth.set_access_token(atoken, asecret)
api = tweepy.API(auth) 
x = 570345457618006016
try:
    tweet = api.get_status(x) 
except Exception, e:
    print "deleted Tweet", tweet.text
    pass

但是在这种方法中,由于引发异常,我经常得到不相关的推文:

Failed to send request: HTTPSConnectionPool(host='api.twitter.com', port=443): Max retries exceeded with url: /1.1/statuses/show.json?id=570500313653776384 (Caused by NewConnectionError('<requests.packages.urllib3.connection.VerifiedHTTPSConnection object at 0x1fce3810>: Failed to establish a new connection: [Errno 111] Connection refused',))

任何人都可以建议一种方法,可以帮助我从我的语料库中识别已删除的推文

1 个答案:

答案 0 :(得分:0)

您使用每个例外处理方式相同。您应该对已删除的推文所做的那些以及由速率限制引起的那些处理不同。但是,您可以避免达到速率限制,而不是处理两种异常。

经常达到限制可能会导致您的应用程序被阻止,您应该在点击之前暂停。您可以每15分钟发出180个请求:每180个请求休眠15分钟,您的代码将正常工作。