Time id1 id2 qty
12/1/18 123 12 2
12/5/18 435 21 3
12/6/18 234 32 4
12/7/18 543 12 5
12/8/18 234 12 6
12/9/18 234 23 1
12/10/18 234 12 2
12/11/18 345 43 3
12/12/18 345 43 5
12/17/17 345 43 2
12/18/17 345 23 2
12/19/17 346 23 2
12/20/17 346 32 3
12/21/17 234 12 3
12/22/17 234 12 5
12/23/17 346 32 3
12/24/17 346 32 2
因此,我尝试使用强制转换为整数并基于此重采样。但是,由于某种原因,它不会打印我想要的数据框。我在pyspark df工作,需要重新采样和分组。
这是数据输入:
Time id1 id2 qty
12/1/18 123 12 2
12/5/18 435 21 3
12/6/18 234 32 4
12/7/18 543 12 5
12/8/18 234 12 6
12/9/18 234 23 1
12/10/18 234 12 2
12/11/18 345 43 3
12/12/18 345 43 5
12/17/17 345 43 2
12/18/17 345 23 2
12/19/17 346 23 2
12/20/17 346 32 3
12/21/17 234 12 3
12/22/17 234 12 5
12/23/17 346 32 3
12/24/17 346 32 2
和一组两个id组合的输出(234,12):
Time id1 id2 qty
12/21/17 234 12 3
12/22/17 234 12 5
12/23/17 234 12 null
12/24/17 234 12 null
12/25/17 234 12 null
12/26/17 234 12 null
12/27/17 234 12 null
12/28/17 234 12 null
12/29/17 234 12 null
12/30/17 234 12 null
12/31/17 234 12 null
....................................
12/8/18 234 12 6
12/9/18 234 12 null
12/10/18 234 12 null
12/11/18 234 12 null
12/12/18 234 12 null
12/13/18 234 12 null
12/14/18 234 12 null
....................................
12/10/18 234 12 2
12/11/18 234 12 null
12/12/18 234 12 null
12/13/18 234 12 null
12/14/18 234 12 null
12/15/18 234 12 null
我尝试使用此链接作为翻拍,但无法按照示例here中所述将时间序列除以e ^ 9。