收集大量推文的最佳方式是什么?

时间:2014-01-05 16:30:02

标签: java twitter tweets

所以我目前正在尝试收集特定位置的推文,然后从收集的推文中分析该位置的情况。我的任务基本上涉及大量的数据挖掘。

然而,我遇到的主要问题是收集足够的推文,这将让我做出判断。

我一直在使用Twitter Streaming API,但这仅占所有推文的1%,远远不够。我挖了10万条推文,很少用英文,更不用说与我想要的位置相关了。

我还注意到,twitter速率会限制您通过API调用方法的频率。 trendmap.com等网站如何运作?他们以某种方式访问​​更大的数据集吗?

编辑:好的,所以我尝试在twiiter4j API中使用地理定位功能。如果您对实施小心谨慎,可以避免速率限制。然而,当推文非常低时,实际具有地理定位功能的人数就会开启。因此,这并不代表该领域的人。我似乎每次都收到相同的推文。 Twitter确实提供了一个“附近”的搜索运算符,它在他们的网站上运行良好。但是据他所知,他们没有在API中包含此功能。

1 个答案:

答案 0 :(得分:2)

如果您是searching using the Twitter API,则可以使用geocode选项将搜索限制在特定的地理位置。

您可以使用result_type=recent来确保您只收到最新的推文。

最大count - 即每个请求的推文数量 - 为100。

search requests per hour的当前限制为450。

所以,每小时最多有45,000条推文 - 这对你来说足够了吗?

tl:dr - 使用限制性最强的搜索参数集将结果限制为您实际需要的结果。

相关问题