所以我目前正在尝试收集特定位置的推文,然后从收集的推文中分析该位置的情况。我的任务基本上涉及大量的数据挖掘。
然而,我遇到的主要问题是收集足够的推文,这将让我做出判断。
我一直在使用Twitter Streaming API,但这仅占所有推文的1%,远远不够。我挖了10万条推文,很少用英文,更不用说与我想要的位置相关了。
我还注意到,twitter速率会限制您通过API调用方法的频率。 trendmap.com等网站如何运作?他们以某种方式访问更大的数据集吗?
编辑:好的,所以我尝试在twiiter4j API中使用地理定位功能。如果您对实施小心谨慎,可以避免速率限制。然而,当推文非常低时,实际具有地理定位功能的人数就会开启。因此,这并不代表该领域的人。我似乎每次都收到相同的推文。 Twitter确实提供了一个“附近”的搜索运算符,它在他们的网站上运行良好。但是据他所知,他们没有在API中包含此功能。
答案 0 :(得分:2)
如果您是searching using the Twitter API,则可以使用geocode
选项将搜索限制在特定的地理位置。
您可以使用result_type=recent
来确保您只收到最新的推文。
最大count
- 即每个请求的推文数量 - 为100。
search requests per hour的当前限制为450。
所以,每小时最多有45,000条推文 - 这对你来说足够了吗?
tl:dr - 使用限制性最强的搜索参数集将结果限制为您实际需要的结果。