如何使用PySpark填补时间戳中的空白

时间:2019-07-18 10:50:20

标签: python pyspark pyspark-sql

我对下面的表格有疑问。我想填补保留ID代码的时间戳的空白。

在此门户网站上,我还阅读了许多其他有关此主题的问题,但是没有一个问题能真正回答我的问题。我尝试了很多事情并使用了窗口函数,但是我总是失败。

理想的解决方案使用PySpark SQL函数。

请帮助!非常感谢。

输入数据:

 ID           TIMESTAMP                  value
---------------------------------
 A          2015-09-11 01:00:00        23000   
 A          2015-09-11 04:00:00        23344   
 A          2015-09-11 05:00:00        23283  
 A          2015-09-11 06:00:00        23786   
 A          2015-09-11 07:00:00        25039

 B          2015-09-11 01:00:00        23000   
 B          2015-09-11 02:00:00        23344   
 B          2015-09-11 05:00:00        23283  
 B          2015-09-11 06:00:00        23786   
 B          2015-09-11 07:00:00        25039

想要的输出:

 ID           TIMESTAMP                value
 -----------------------------------
 A          2015-09-11 01:00:00        23000 
 A          2015-09-11 02:00:00        null
 A          2015-09-11 03:00:00        null
 A          2015-09-11 04:00:00        23344   
 A          2015-09-11 05:00:00        23283  
 A          2015-09-11 06:00:00        23786   
 A          2015-09-11 07:00:00        25039

 B          2015-09-11 01:00:00        23000   
 B          2015-09-11 02:00:00        23344
 B          2015-09-11 03:00:00        null
 B          2015-09-11 04:00:00        null
 B          2015-09-11 05:00:00        23283  
 B          2015-09-11 06:00:00        23786   
 B          2015-09-11 07:00:00        25039

0 个答案:

没有答案