我是Scala和Spark的新手。我正在使用Twitter数据处理火花流。我将流平面映射成单个单词。现在,我需要在处理它们之前消除类似于以#,@开头的推文字和来自流数据的RT之类的字。我知道这很容易。我为此写了过滤器,但它没有用。任何人都可以帮助这个。我的代码是
{{1}}
语言过滤器也显示错误。
谢谢。
答案 0 :(得分:2)
您可以使用内置字词过滤器支持:
TwitterUtils.createStream(ssc, None, Array("filter", "these", "words"))
但是如果你想修复你的代码:
.filterNot(_.getText.startsWith("#"))
关于语言,请参阅此question。
答案 1 :(得分:0)
你的lambda表达是否正确?我想你想要:
val filterRDD = RDD1.filter(word => !word.startsWith("#"))