应用错误收集

时间：2011-09-25 18:31:13

标签： python twitter screen-scraping

我正在python中构建一个需要抓取大量Twitter数据的项目。像100万用户和所有推文都需要被删除。

以前我使用过Tweepy和Twython，但是很快就达到了Twitter的极限。

情绪分析公司等如何获取数据？他们如何得到所有这些推文？你是在某个地方购买或者通过不同的代理或东西构建一些东西吗？

像Infopimps这样拥有Trst排名的公司如何获得所有数据？ * http://www.infochimps.com/datasets/twitter-census-trst-rank

答案 0 :(得分：7)

我不知道这是否适用于您尝试执行的操作，但Tweets2011数据集最近已发布。

来自说明：

作为TREC 2011微博的一部分，Twitter提供了标识符在1月23日到1月23日之间抽样的大约1600万条推文 2011年2月8日。语料库旨在成为可重用的， twittersphere的代表性样本 - 即重要的和包括垃圾邮件。

答案 1 :(得分：7)

如果您想要特定用户的最新推文，Twitter会提供Streaming API。

Streaming API是Twitter Firehose的实时样本。此API适用于具有数据密集型需求的开发人员。如果您正在构建数据挖掘产品或对分析研究感兴趣，则Streaming API最适合此类事项。

如果您尝试访问旧信息，那么具有严格请求限制的REST API是唯一的方法。