Pyspark找到具有列值的常见行对

时间:2020-10-04 02:32:42

标签: pyspark

Pyspark菜鸟在这里。我有一个看起来像这样的数据集(具有数千个不同的开始和结束ID):

startID,  endID
1         1
1         2
1         3
2         3
1         1
...

我需要计数所有将startID和endID组合同时出现的时间(行),并得到如下信息:

startID   endID  count
1         1      2
1         2      1
...

2 个答案:

答案 0 :(得分:2)

此处不需要

.agg()。简单地:

df.groupBy('startID', 'endID').count().show()

答案 1 :(得分:1)

分组并计数。

from pyspark.sql.functions import *

df.groupBy('startID', 'endID').agg(count(lit(1)).alias('count'))
  .show()
相关问题