我是Spark和Scala的新手。我运行了Spark流媒体工作 - 推特流行的哈希标签。
我为某些单词添加了一个过滤器,并且能够过滤掉推文:
val filter = Array("spark", "Big Data")
val stream = TwitterUtils.createStream(ssc, None, filter)
同样,我想添加一个语言过滤器,以便只传输英文推文。 Twitter4j有Track()
和Locations
。它有语言过滤器吗?如果是这样,它在Scala中是如何工作的?
答案 0 :(得分:0)
我重复this Spark thread中已经说过的内容。
Spark使用Twitter4J作为Feed。 Twitter4J从版本3.0.6开始具有getLang
(doc),允许您:
.filter(_.getLang == "en")
可用于DStream
的{{1}}。
但不幸的是,Spark使用较早的version Twitter4J(doc)而没有twitter4j.Status
。
将Spark中的Twitter4J升级到3.0.6,等待Spark升级Twitter4J,或采用完全不同的方法。