[我是PySpark的新手。如果这是一个现有问题的重复,虽然我找不到它,请指出我。感谢。]
我有一个数据集,其中,在每4个连续值中,第一个是好的,但剩下的3个是NaN。 (这是因为一列中的采样率是其他列的四分之一。)类似于:
ColA
-----
3.4
NaN
NaN
NaN
6.3
NaN
NaN
NaN
等等。什么是用前面的有效值替换这三个NaN
值的最有效的PySparkic方法。
效率是一个考虑因素,因为我有38亿行,该模式重复(微秒分辨率传感器读数)。
非常感谢。