应用错误收集

在Spark数据框

时间：2016-07-17 10:41:41

标签： apache-spark pyspark spark-dataframe

我正在尝试使用PySpark填充spark数据帧中的缺失值。但是没有任何正确的方法可以做到这一点。我的任务是根据前一行或后一行填充某些行的缺失值。具体来说，我会将一行的0.0值更改为上一行的值，而在非零行上不执行任何操作。我确实在spark中看到了Window函数，但它只支持一些简单的操作，如max，min，mean，这些不适合我的情况。如果我们可以在给定的Window上滑动用户定义的函数，那将是最佳的。有人有个好主意吗？

1 个答案:

答案 0 :(得分：1)

使用Spark window API访问上一行数据。如果您处理时间序列数据，请参阅missing data imputation的{{3}}。

填写R中缺少的重复值
如何在SataFrame中填充缺失值？
在Spark / Python中转发填充缺失值
在Spark数据框
如何处理数据集-Spark / Scala中的缺失值输入
数据框 - 填写缺失的数据
Python Pandas DataFrame填充缺失值
Python填充丢失的数据
填写pyspark数据框中行之间的缺失日期
前填充行具有第一个非缺失值

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？