Spark(scala):计算RDD上整列的所有不同值

时间:2016-03-13 08:49:24

标签: scala apache-spark

我有这个RDD:

val resultRdd: RDD[(VertexId, String, Seq[Long])]

我想计算所有记录的Seq中的不同值。

例如,如果我有3条Seq值的记录如下:

VertexId ------- String -------Seq[Long]
1 ----------------- x -------------  1, 3
2 ----------------- x -------------  1, 5
3 ----------------- x--------------- 2, 3, 6

结果应为= 5,计数为{1,3,5,2,6}

谢谢:)

1 个答案:

答案 0 :(得分:6)

resultRdd.flatMap(_._3).distinct().count()