如何在pyspark中查找重复值的总和和计数?

时间:2019-05-30 11:24:44

标签: dataframe pyspark pyspark-sql

我的数据帧为dd1

colA    colB    Total   
 A       A        12
 A       A         1
 B       B        45
 B       B         0
 B       B         5
 C       C         1
 D       D         12

我想要这样的dd2输出:

colA    colB    count  Total   
 A       A        2      13
 B       B        3      50
 C       C        1       1
 D       D        1      12

在count列中,该值是发生的时间,Total列包含Total的总和。

1 个答案:

答案 0 :(得分:1)

尝试一下-

from pyspark.sql import functions as F

dd2 = dd1.groupBy('colA','colA').agg(F.count('colA').alias('count'),F.sum('Total').alias('Total'))