PySpark:为缺少的日期添加新行,该行按另一列中的唯一值分组

时间:2018-12-04 19:26:55

标签: python pyspark

我有一个看起来像这样的数据框:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-03           1          3
2017-09-05           1          4 
2017-09-05           2          1   
2017-09-07           2          2

我想要的是这样的

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-02           1          NULL
2017-09-03           1          3
2017-09-04           1          NULL
2017-09-05           1          4
2017-09-05           2          1   
2017-09-06           2          NULL
2017-09-07           2          2

有没有一种方法不涉及循环唯一的ID,过滤并收集最小和最大日期?

0 个答案:

没有答案