在Apache Spark中查找异常值并替换为Mean值

时间:2016-02-13 10:53:04

标签: apache-spark dataframe apache-spark-sql

我目前正在完成一项任务,我需要找到异常值&将它们替换为列中前两个和后两个值的平均值/平均值 我在2列以下作为数据框 示例数据如下所示 enter image description here

请告诉我如何使用数据框实现这一目标。任何建议都会有很好的帮助。谢谢。

1 个答案:

答案 0 :(得分:0)

我找到了上述问题的解决方案 使用HiveContext Window函数,我们可以识别&之前的行。异常检测后&替换他们。以下是示例代码     val w = Window.partitionBy(" CustomerID")。orderBy(" EventDate")
    val before = w.rowsBetween(-2,-1)     val after = w.rowsBetween(1,2)