我是twitter api的新手,我花了很多时间试图解决这个问题。
我想从最近的推文中为给定的搜索词提取大量(100k - 1m)的推文。我尝试使用tweepy,我能够设置一个流,但我也需要过去的数据。
我也尝试过以下代码,但它一次只给我100个,我不明白如何使用since_id和max_id来浏览过去的推文。此外,如果有人知道如何从帖子中提取主题标签。目前我在帖子中分词,用“#”查找单词,但api.search有一个属性'哈希',我不知道如何调用它。
results = api.search(q=movies[0],count=100,lang='en')
任何指导都将不胜感激。
答案 0 :(得分:1)
您可以通过执行以下操作将其添加到result[]
:
results = []
#Get the first 1000 items based on the search query and store it
for tweet in tweepy.Cursor(api.search, q='%23Trump').items(1000):
results.append(tweet)
答案 1 :(得分:0)
您将需要使用Tweepy光标。要创建Cursor,请将api方法和任何参数传递给它:
cursor = tweepy.Cursor(api.search, q=movies[0], count=100, lang='en')
然后,迭代Cursor的items
方法返回的结果。您可以传递可选的结果限制:
for item in cursor.items(limit=20): # the limit can be omitted
# do something with the item
答案 2 :(得分:0)
总存档限制为3200条推文,但每日限制为1500.