标签: apache-spark pyspark
RDD的类型是列表。
rdd = sc.parallelize([[1,3], [3,4]])
我想计算每个标量值,例如1,3,4。
1,3,4
我期望一个类似{1:1, 3:2, 4:1}
{1:1, 3:2, 4:1}
答案 0 :(得分:1)
您可以先使用null,然后使用flatMap将其展平:
null
flatMap
countByValue