Spark scala根据字符串长度过滤多个rdd

时间:2017-07-02 02:37:15

标签: scala apache-spark spark-dataframe

我正在尝试解决其中一个测验,问题如下,

在给定程序中写下缺失的代码,以显示预期输出,以识别名称为4的动物

字母

Output: Array((4,lion))

程序

val a = sc.parallelize(List("dog","tiger","lion","cat","spider","eagle"),2)

val b = a.keyBy(_.length)

val c = sc.parallelize(List("ant","falcon","squid"),2)

val d = c.keyBy(_.length)

我曾尝试在spark shell中编写代码,但仍然坚持使用语法添加4个RDD并应用过滤器。

1 个答案:

答案 0 :(得分:0)

如何使用 PairRDD lookup方法:

b.lookup(4).toArray
// res1: Array[String] = Array(lion)

d.lookup(4).toArray
// res2: Array[String] = Array()