如何在Pyspark中使用重复键countByValue?

时间:2019-02-13 05:13:34

标签: python apache-spark pyspark pyspark-sql

我正在尝试获取RDD的所有唯一值及其各自的出现次数。我试图将元素列表转换为RDD,并尝试获取每个值的出现。

X_RDD = sc.parallelize([1,2,3,4,5,6,7,8,2,4,2,1,1,1,1,1])
Y_MAP = X_RDD.map(lambda m:(m,1))
for i in Y_MAP.countByValue():print(i)

我得到以下输出:

8,1
7,1
6,1
5,1
4,1
3,1
2,1
1,1

我如何获得如下所示的事件:

1,6
2,3
3,1
4,2
5,1
6,1
7,1
8,1

1 个答案:

答案 0 :(得分:0)

countByValue()::它以(值,计数)对的字典的形式返回此RDD中每个唯一值的计数,要访问此字典,您需要.items()。您缺少这部分。

方法1:反映您的方法

sorted(sc.parallelize([1,2,3,4,5,6,7,8,2,4,2,1,1,1,1,1]).countByValue().items())
    [(1, 6), (2, 3), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1)]

方法2:更简单。

X_RDD = sc.parallelize([1,2,3,4,5,6,7,8,2,4,2,1,1,1,1,1])
Y_MAP = X_RDD.map(lambda m:(m,1))

x = Y_MAP.groupByKey().mapValues(lambda x:list(x))
x.mapValues(lambda x:len(x)).collect()
    [(1, 6), (2, 3), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1)]