从Twitter获取(可能)大量数据的方法

时间:2015-12-27 21:13:28

标签: twitter twitter4j

我使用Twitter4j一直在玩Twitter API。我试图提供关键字和日期的数据,我将使用REST API运行的查询示例

bagels since:2014-12-27

这会给我所有包含关键字' bagels'自2014-12-27。

这在理论上有效,但我很快就超过rate limits,因为每个查询最多允许100个结果,并且在15分钟的间隔内只允许180个查询。有许多关键字可以返回超过18k的结果。

有没有更好的方法从Twitter提取大量数据?我查看了Streaming API,但我不知道是否可以从特定日期范围内提取数据。

1 个答案:

答案 0 :(得分:1)

您可以采取一些措施来提高费率:

  1. 确保您的点数最多为100,这看起来就像您正在做的那样。
  2. 使用仅限应用程序授权 - 它会将您的速率限制提高到450。
  3. 使用max_id,since_id参数分页数据,避免查询已收到的结果。请参阅Working with Timelines文档,了解我的意思。
  4. 如果您愿意付费以取消费率限制,请考虑使用Gnip。