Question

我是Spark和Scala的新手。我运行了Spark流媒体工作 - 推特流行的哈希标签。

我为某些单词添加了一个过滤器，并且能够过滤掉推文：

val filter = Array("spark", "Big Data")
val stream = TwitterUtils.createStream(ssc, None, filter)

同样，我想添加一个语言过滤器，以便只传输英文推文。 Twitter4j有Track()和Locations。它有语言过滤器吗？如果是这样，它在Scala中是如何工作的？

Answer 1

我重复this Spark thread中已经说过的内容。

Spark使用Twitter4J作为Feed。 Twitter4J从版本3.0.6开始具有getLang（doc），允许您：

.filter(_.getLang == "en")

可用于DStream的{{1}}。

但不幸的是，Spark使用较早的version Twitter4J（doc）而没有twitter4j.Status。

将Spark中的Twitter4J升级到3.0.6，等待Spark升级Twitter4J，或采用完全不同的方法。