使用Spark,我有一对RDD[(String, (Int, Int)]
。我试图找到每个键显示多个总和的最佳方法(在这种情况下,单独显示每个Int
的总和)。我想用reduceByKey
执行此操作。
这可能吗?
答案 0 :(得分:5)
不确定
val rdd = sc.parallelize(Array(("foo", (1, 10)), ("foo", (2, 2)), ("bar", (5, 5))))
val res = rdd.reduceByKey((p1, p2) => (p1._1 + p2._1, p1._2 + p2._2))
res.collect()