PySpark数据帧 - 用先前的有效值替换列中的连续NaN值

时间:2018-05-26 07:01:38

标签: apache-spark dataframe pyspark nan

[我是PySpark的新手。如果这是一个现有问题的重复,虽然我找不到它,请指出我。感谢。]

我有一个数据集,其中,在每4个连续值中,第一个是好的,但剩下的3个是NaN。 (这是因为一列中的采样率是其他列的四分之一。)类似于:

ColA
-----
 3.4
 NaN
 NaN
 NaN
 6.3
 NaN
 NaN
 NaN

等等。什么是用前面的有效值替换这三个NaN值的最有效的PySparkic方法。

效率是一个考虑因素,因为我有38亿行,该模式重复(微秒分辨率传感器读数)。

非常感谢。

0 个答案:

没有答案