标签: arrays scala apache-spark rdd
我有一个Array [Int]元组的RDD,想知道Arrays中有多少元素相似,最好的方法是什么?
答案 0 :(得分:2)
数组中的公共元素数是集合交集的大小:
rdd.map { case (x, y) => x.toSet.intersect(y.toSet).size }