我对下面的表格有疑问。我想填补保留ID代码的时间戳的空白。
在此门户网站上,我还阅读了许多其他有关此主题的问题,但是没有一个问题能真正回答我的问题。我尝试了很多事情并使用了窗口函数,但是我总是失败。
理想的解决方案使用PySpark SQL函数。
请帮助!非常感谢。
输入数据:
ID TIMESTAMP value
---------------------------------
A 2015-09-11 01:00:00 23000
A 2015-09-11 04:00:00 23344
A 2015-09-11 05:00:00 23283
A 2015-09-11 06:00:00 23786
A 2015-09-11 07:00:00 25039
B 2015-09-11 01:00:00 23000
B 2015-09-11 02:00:00 23344
B 2015-09-11 05:00:00 23283
B 2015-09-11 06:00:00 23786
B 2015-09-11 07:00:00 25039
想要的输出:
ID TIMESTAMP value
-----------------------------------
A 2015-09-11 01:00:00 23000
A 2015-09-11 02:00:00 null
A 2015-09-11 03:00:00 null
A 2015-09-11 04:00:00 23344
A 2015-09-11 05:00:00 23283
A 2015-09-11 06:00:00 23786
A 2015-09-11 07:00:00 25039
B 2015-09-11 01:00:00 23000
B 2015-09-11 02:00:00 23344
B 2015-09-11 03:00:00 null
B 2015-09-11 04:00:00 null
B 2015-09-11 05:00:00 23283
B 2015-09-11 06:00:00 23786
B 2015-09-11 07:00:00 25039