标签: python pyspark
我有一个包含“标签”和“日期”的数据集。我需要按“标签”对数据进行分组(这很简单),然后在每个组中计算其日期小于该特定行中日期的行数。分组数据后,我基本上需要遍历行。我不知道如何在PySpark中编写能够解决该问题的UDF。感谢您的帮助。
答案 0 :(得分:0)
您需要汇总吗?
df.groupBy(“ tag”)。agg({“ date”:“ min”})
那是什么?