在Spark数据框

时间:2016-07-17 10:41:41

标签: apache-spark pyspark spark-dataframe

我正在尝试使用PySpark填充spark数据帧中的缺失值。但是没有任何正确的方法可以做到这一点。我的任务是根据前一行或后一行填充某些行的缺失值。具体来说,我会将一行的0.0值更改为上一行的值,而在非零行上不执行任何操作。我确实在spark中看到了Window函数,但它只支持一些简单的操作,如max,min,mean,这些不适合我的情况。如果我们可以在给定的Window上滑动用户定义的函数,那将是最佳的。 有人有个好主意吗?

1 个答案:

答案 0 :(得分:1)

使用Spark window API访问上一行数据。如果您处理时间序列数据,请参阅missing data imputation的{​​{3}}。