Spark - 使用ReduceByKey以最佳方式聚合两个值

时间:2015-07-21 23:19:44

标签: scala apache-spark

使用Spark,我有一对RDD[(String, (Int, Int)]。我试图找到每个键显示多个总和的最佳方法(在这种情况下,单独显示每个Int的总和)。我想用reduceByKey执行此操作。

这可能吗?

1 个答案:

答案 0 :(得分:5)

不确定

val rdd = sc.parallelize(Array(("foo", (1, 10)), ("foo", (2, 2)), ("bar", (5, 5))))
val res = rdd.reduceByKey((p1, p2) => (p1._1 + p2._1, p1._2 + p2._2))
res.collect()