经常使用cron,以及我的推特公共时间表?

时间:2009-05-24 01:43:31

标签: api twitter cron

依赖于Twitter公共时间线的网络应用程序,他们多久收集一次数据?每分钟必须有数十万条消息,对吗?他们如何设法收集所有推文,而不会遗漏任何推文?

4 个答案:

答案 0 :(得分:2)

某些服务(Friendfeed就是一个很好的例子)被授予访问Twitter Streaming API,即'firehose'的权限。它需要批准和书面协议。

答案 1 :(得分:2)

公共时间线不再是挖掘数据的好地方。 Twitter现在使用其Streaming APIs输出疯狂的推文。与publictimeline最接近的比较是spritzer方法,但只包含一小部分样本。如果您需要收集所有(或更多)推文而不是spritzer方法,您需要签署书面协议才能访问其他Streaming API(HTTP推送)Feed,例如firehose Feed,所有公开推文。

答案 2 :(得分:1)

如上所述,Twitter API的速率有限。公共时间线(twitter.com/public_timeline)在相同意义上不受速率限制,但它仅每5秒更新一次,因此大多数推文都不会出现在那里。

我认为有三四家公司可以访问firehose,因为Twitter的全部供稿被称为。 FriendFeed就是其中之一。另一个是Gnip。 Gnip将饲料转售给其他公司。这可能是获得完整推特供稿的唯一可行方式。

答案 3 :(得分:1)

转到此处:

http://twitter.com/help/request_whitelisting

如果每小时100次请求不够,请将您的帐户列入白名单(每小时允许20,000次)。

@ceejayoz它不是100 GET请求其100个请求,一般不包括一些请求,如verify_credentials和rate_limit_status。