Question

Pyspark菜鸟在这里。我有一个看起来像这样的数据集（具有数千个不同的开始和结束ID）：

startID,  endID
1         1
1         2
1         3
2         3
1         1
...

我需要计数所有将startID和endID组合同时出现的时间（行），并得到如下信息：

startID   endID  count
1         1      2
1         2      1
...

Answer 1

此处不需要

.agg()。简单地：

df.groupBy('startID', 'endID').count().show()

Answer 2

分组并计数。

from pyspark.sql.functions import *

df.groupBy('startID', 'endID').agg(count(lit(1)).alias('count'))
  .show()