Spark:列表类型RDD的collectByValue如何

时间:2020-07-02 01:25:03

标签: apache-spark pyspark

RDD的类型是列表。

rdd = sc.parallelize([[1,3], [3,4]])

我想计算每个标量值,例如1,3,4

我期望一个类似{1:1, 3:2, 4:1}

的字典

1 个答案:

答案 0 :(得分:1)

您可以先使用null,然后使用flatMap将其展平:

countByValue