python - PySpark组并逐行应用UDF - Thinbug

PySpark组并逐行应用UDF

时间：2019-08-26 22:11:31

标签： python pyspark

我有一个包含“标签”和“日期”的数据集。我需要按“标签”对数据进行分组（这很简单），然后在每个组中计算其日期小于该特定行中日期的行数。分组数据后，我基本上需要遍历行。我不知道如何在PySpark中编写能够解决该问题的UDF。感谢您的帮助。

1 个答案:

答案 0 :(得分：0)

您需要汇总吗？

df.groupBy（“ tag”）。agg（{“ date”：“ min”}）

那是什么？