PySpark组并逐行应用UDF

时间:2019-08-26 22:11:31

标签: python pyspark

我有一个包含“标签”和“日期”的数据集。我需要按“标签”对数据进行分组(这很简单),然后在每个组中计算其日期小于该特定行中日期的行数。分组数据后,我基本上需要遍历行。我不知道如何在PySpark中编写能够解决该问题的UDF。感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

您需要汇总吗?

df.groupBy(“ tag”)。agg({“ date”:“ min”})

那是什么?