嵌套元组上的Pyspark reduceByKey

时间:2016-08-20 13:07:16

标签: python pyspark rdd reduce

我的问题与PySpark reduceByKey on multiple values类似,但有一些不同的关键区别。我是PySpark的新手,所以我肯定错过了一些明显的东西。

我有一个RDD,结构如下:

(K0, ((k01,v01), (k02,v02), ...))
....
(Kn, ((kn1,vn1), (kn2,vn2), ...))

我想要的输出就像

(K0, v01+v02+...)
...
(Kn, vn1+vn2+...)

这似乎是使用reduceByKey的完美案例,起初我想到的是

rdd.reduceByKey(lambda x,y: x[1]+y[1])

这让我确切地知道了我开始的RDD。我认为我的索引有问题,因为有嵌套元组,但我已经尝试了所有可能的索引组合,并且它一直在给我回到最初的RDD。

是否有理由不应该使用嵌套元组,或者我做错了什么?

1 个答案:

答案 0 :(得分:1)

你根本不应该使用reduceByKey。它采用带签名的关联和交换功能。 (T, T) => T。显而易见的是,当您将List[Tuple[U, T]]作为输入并且您希望T作为输出时,它不适用。

由于当我们必须在本地和全局聚合时,关键或唯一或不允许考虑一般示例并不完全清楚。让我们假设v01v02,... vm是简单的数字:

from functools import reduce
from operator import add

def agg_(xs):
    # For numeric values sum would be more idiomatic
    # but lets make it more generic
    return reduce(add, (x[1] for x in xs), zero_value)

zero_value = 0
merge_op = add
def seq_op(acc, xs):
    return acc + agg_(xs)

rdd = sc.parallelize([
    ("K0", (("k01", 3), ("k02", 2))),
    ("K0", (("k03", 5), ("k04", 6))),
    ("K1", (("k11", 0), ("k12", -1)))])

rdd.aggregateByKey(0, seq_op, merge_op).take(2)
## [('K0', 16), ('K1', -1)]

如果密钥已经是唯一的,则简单mapValues就足够了:

from itertools import chain

unique_keys = rdd.groupByKey().mapValues(lambda x: tuple(chain(*x)))
unique_keys.mapValues(agg_).take(2)
## [('K0', 16), ('K1', -1)]