如何按ID分组并重新采样日期(在2017年1月至2018年1月之间)并更改pyspark中0的空值?

时间:2019-12-05 03:19:39

标签: pyspark

Time     id1    id2 qty
12/1/18  123    12  2
12/5/18  435    21  3
12/6/18  234    32  4
12/7/18  543    12  5
12/8/18  234    12  6
12/9/18  234    23  1
12/10/18 234    12  2
12/11/18 345    43  3
12/12/18 345    43  5
12/17/17 345    43  2
12/18/17 345    23  2
12/19/17 346    23  2
12/20/17 346    32  3
12/21/17 234    12  3
12/22/17 234    12  5
12/23/17 346    32  3
12/24/17 346    32  2

因此,我尝试使用强制转换为整数并基于此重采样。但是,由于某种原因,它不会打印我想要的数据框。我在pyspark df工作,需要重新采样和分组。

这是数据输入:

Time     id1    id2 qty
12/1/18  123    12  2
12/5/18  435    21  3
12/6/18  234    32  4
12/7/18  543    12  5
12/8/18  234    12  6
12/9/18  234    23  1
12/10/18 234    12  2
12/11/18 345    43  3
12/12/18 345    43  5
12/17/17 345    43  2
12/18/17 345    23  2
12/19/17 346    23  2
12/20/17 346    32  3
12/21/17 234    12  3
12/22/17 234    12  5
12/23/17 346    32  3
12/24/17 346    32  2

和一组两个id组合的输出(234,12):

Time    id1 id2 qty
12/21/17    234 12  3
12/22/17    234 12  5
12/23/17    234 12  null
12/24/17    234 12  null
12/25/17    234 12  null
12/26/17    234 12  null
12/27/17    234 12  null
12/28/17    234 12  null
12/29/17    234 12  null
12/30/17    234 12  null
12/31/17    234 12  null
....................................
12/8/18         234 12  6
12/9/18         234 12  null
12/10/18    234 12  null
12/11/18    234 12  null
12/12/18    234 12  null
12/13/18    234 12  null
12/14/18    234 12  null
....................................
12/10/18    234 12  2
12/11/18    234 12  null
12/12/18    234 12  null
12/13/18    234 12  null
12/14/18    234 12  null
12/15/18    234 12  null

我尝试使用此链接作为翻拍,但无法按照示例here中所述将时间序列除以e ^ 9。

0 个答案:

没有答案