pyspark:在rdd上获取groupby的第二个元素的大小

时间:2017-03-14 22:21:22

标签: pyspark rdd

我有一个rdd,我是通过以下输入创建的:

0 1
0 2
1 2
1 3

我做了一个小组,如下所示:

rdd2 = rdd1.groupBy(lambda x: x[0])

现在rdd2会是这样的:

[(0,[1,2]),(1,[2,3])]

我的问题是,如何获得与每个元素相关的列表大小?

由于

1 个答案:

答案 0 :(得分:1)

您可以使用mapValueslen

rdd2.mapValues(list).mapValues(len)