我有这个RDD:
val resultRdd: RDD[(VertexId, String, Seq[Long])]
我想计算所有记录的Seq中的不同值。
例如,如果我有3条Seq值的记录如下:
VertexId ------- String -------Seq[Long]
1 ----------------- x ------------- 1, 3
2 ----------------- x ------------- 1, 5
3 ----------------- x--------------- 2, 3, 6
结果应为= 5,计数为{1,3,5,2,6}
谢谢:)
答案 0 :(得分:6)
resultRdd.flatMap(_._3).distinct().count()