标签: pyspark rdd
我有一个rdd,我是通过以下输入创建的:
0 1 0 2 1 2 1 3
我做了一个小组,如下所示:
rdd2 = rdd1.groupBy(lambda x: x[0])
现在rdd2会是这样的:
[(0,[1,2]),(1,[2,3])]
我的问题是,如何获得与每个元素相关的列表大小?
由于
答案 0 :(得分:1)
您可以使用mapValues和len:
mapValues
len
rdd2.mapValues(list).mapValues(len)