我的数据帧为dd1
colA colB Total
A A 12
A A 1
B B 45
B B 0
B B 5
C C 1
D D 12
我想要这样的dd2输出:
colA colB count Total
A A 2 13
B B 3 50
C C 1 1
D D 1 12
在count列中,该值是发生的时间,Total列包含Total的总和。
答案 0 :(得分:1)
尝试一下-
from pyspark.sql import functions as F
dd2 = dd1.groupBy('colA','colA').agg(F.count('colA').alias('count'),F.sum('Total').alias('Total'))