我有一个火花对RDD(密钥,计数),如下所示
Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))
如何使用spark scala API找到计数最高的密钥?
编辑:对RDD的数据类型是org.apache.spark.rdd.RDD [(String,Int)]
答案 0 :(得分:21)
使用Array.maxBy
方法:
val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val maxKey = a.maxBy(_._2)
// maxKey: (String, Int) = (d,3)
或RDD.max
:
val maxKey2 = rdd.max()(new Ordering[Tuple2[String, Int]]() {
override def compare(x: (String, Int), y: (String, Int)): Int =
Ordering[Int].compare(x._2, y._2)
})
答案 1 :(得分:13)
使用takeOrdered(1)(Ordering[Int].reverse.on(_._2))
:
val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val rdd = sc.parallelize(a)
val maxKey = rdd.takeOrdered(1)(Ordering[Int].reverse.on(_._2))
// maxKey: Array[(String, Int)] = Array((d,3))
答案 2 :(得分:6)
对于Pyspark:
让a
成为RDD对,键为String,值为整数
a.max(lambda x:x[1])
返回具有最大值的键值对。基本上,max函数按lambda函数的返回值排序。
此处a
是一对RDD,其中('key',int)
和x[1]
等元素仅指元素的整数部分。
请注意,max
函数本身将按键排序并返回最大值。
文档位于https://spark.apache.org/docs/1.5.0/api/python/pyspark.html#pyspark.RDD.max
答案 3 :(得分:4)
当它们作为RDD被保留并且没有变成数组时,Spark RDD的时间效率更高
strinIntTuppleRDD.reduce((x, y) => if(x._2 > y._2) x else y)