我正在python中构建一个需要抓取大量Twitter数据的项目。像100万用户和所有推文都需要被删除。
以前我使用过Tweepy和Twython,但是很快就达到了Twitter的极限。
情绪分析公司等如何获取数据?他们如何得到所有这些推文?你是在某个地方购买或者通过不同的代理或东西构建一些东西吗?
像Infopimps这样拥有Trst排名的公司如何获得所有数据? * http://www.infochimps.com/datasets/twitter-census-trst-rank
答案 0 :(得分:7)
我不知道这是否适用于您尝试执行的操作,但Tweets2011数据集最近已发布。
来自说明:
作为TREC 2011微博的一部分,Twitter提供了标识符 在1月23日到1月23日之间抽样的大约1600万条推文 2011年2月8日。语料库旨在成为可重用的, twittersphere的代表性样本 - 即重要的和 包括垃圾邮件。
答案 1 :(得分:7)
如果您想要特定用户的最新推文,Twitter会提供Streaming API。
Streaming API是Twitter Firehose的实时样本。此API适用于具有数据密集型需求的开发人员。如果您正在构建数据挖掘产品或对分析研究感兴趣,则Streaming API最适合此类事项。
如果您尝试访问旧信息,那么具有严格请求限制的REST API是唯一的方法。