我目前正在试验Twitter Streaming API。一切都像魅力,但API发送给我大量的数据,我不需要。是否有可能过滤API发送给我的数据?
我正在使用以下信息流:https://stream.twitter.com/1.1/statuses/filter.json
答案 0 :(得分:6)
看一下api的过滤器流:
您可以输入一组关键字作为过滤器来跟踪Twitter,根据当前限制,您最多可以跟踪400个关键字。
检索推文后,您必须再次进行手动过滤以删除噪音数据。
因此,如果您可以通过一组关键字指定您所查找的内容,那么您将实现您想要的效果;但是数据中总会有噪音,因为几乎不可能通过简单的关键字过滤来定义smtg。
例如,假设您想要跟踪与名为XYZ的品牌相关的所有推文。要获取有关品牌XYZ
的推文,您可能只有一个单词关键字集,其中仅包含“XYZ”。 API将为您提供包含XYZ
的所有推文,但假设“XYZ”在某种语言中具有含义,并且说该语言的人会发布有关该词的推文,您也会收到该推文。还假设有一个名为XYZ的城市,人们将发送登记入住的mesasgees。因此,此时您需要通过语言检测或上下文信息检索过滤掉与您的主题无关的推文。但关键是要指定关于您想要涵盖的主题的关键字集。
干杯。
答案 1 :(得分:0)
回答是“否”的问题“有没有办法(除了自己手动搜索)以检测到推文对应于我在过滤器中指定的三个关键字的WHICH ?”我们必须手动完成..
答案 2 :(得分:-1)
看看backtype storm project。有些例子可以使用twitter4j来过滤api。