在(Array [Int],Array [Int])的RDD中查找相似元素的数量

时间:2016-11-25 16:08:39

标签: arrays scala apache-spark rdd

我有一个Array [Int]元组的RDD,想知道Arrays中有多少元素相似,最好的方法是什么?

1 个答案:

答案 0 :(得分:2)

数组中的公共元素数是集合交集的大小:

rdd.map { case (x, y) =>  x.toSet.intersect(y.toSet).size }