Pyspark菜鸟在这里。我有一个看起来像这样的数据集(具有数千个不同的开始和结束ID):
startID, endID
1 1
1 2
1 3
2 3
1 1
...
我需要计数所有将startID和endID组合同时出现的时间(行),并得到如下信息:
startID endID count
1 1 2
1 2 1
...
答案 0 :(得分:2)
.agg()
。简单地:
df.groupBy('startID', 'endID').count().show()
答案 1 :(得分:1)
分组并计数。
from pyspark.sql.functions import *
df.groupBy('startID', 'endID').agg(count(lit(1)).alias('count'))
.show()