添加语言过滤器到twitter popularhashtags - scala

时间:2015-06-23 22:07:53

标签: scala twitter apache-spark twitter4j spark-streaming

我是Spark和Scala的新手。我运行了Spark流媒体工作 - 推特流行的哈希标签。

我为某些单词添加了一个过滤器,并且能够过滤掉推文:

val filter = Array("spark", "Big Data")
val stream = TwitterUtils.createStream(ssc, None, filter) 

同样,我想添加一个语言过滤器,以便只传输英文推文。 Twitter4j有Track()Locations。它有语言过滤器吗?如果是这样,它在Scala中是如何工作的?

1 个答案:

答案 0 :(得分:0)

我重复this Spark thread中已经说过的内容。

Spark使用Twitter4J作为Feed。 Twitter4J从版本3.0.6开始具有getLangdoc),允许您:

.filter(_.getLang == "en")

可用于DStream的{​​{1}}。

但不幸的是,Spark使用较早的version Twitter4J(doc)而没有twitter4j.Status

将Spark中的Twitter4J升级到3.0.6,等待Spark升级Twitter4J,或采用完全不同的方法。