Spark Streaming - Twitter - 过滤推文数据

时间:2015-06-25 22:49:59

标签: scala twitter apache-spark twitter4j spark-streaming

我是Scala和Spark的新手。我正在使用Twitter数据处理火花流。我将流平面映射成单个单词。现在,我需要在处理它们之前消除类似于以#,@开头的推文字和来自流数据的RT之类的字。我知道这很容易。我为此写了过滤器,但它没有用。任何人都可以帮助这个。我的代码是

{{1}}

语言过滤器也显示错误。

谢谢。

2 个答案:

答案 0 :(得分:2)

您可以使用内置字词过滤器支持:

TwitterUtils.createStream(ssc, None, Array("filter", "these", "words")) 

但是如果你想修复你的代码:

.filterNot(_.getText.startsWith("#"))

关于语言,请参阅此question

答案 1 :(得分:0)

你的lambda表达是否正确?我想你想要:

val filterRDD = RDD1.filter(word => !word.startsWith("#"))