Spark / Scala:用最后一次良好的观察来填充nan

时间:2016-11-14 15:24:22

标签: scala apache-spark apache-spark-sql nan apache-spark-dataset

我正在使用spark 2.0.1并希望用列中最后一个已知值填充nan值。

对spark的唯一参考我可以找到似乎使用RDD的Spark / Scala: forward fill with last observationFill in null with previously known good value with pyspark

我更愿意留在数据框/数据集世界中并且可能处理多个nan值。 这可能吗?

我的假设是数据(最初从例如CSV文件加载的数据是按时间排序的,并且此顺序保留在分布式设置中,例如填充接近/最后的已知值是正确的。也许填充前一个值就足够了至于大多数记录,连续没有2个或更多的纳米记录。这实际上是否成立? 重点是

myDf.sort("foo").show

会破坏任何订单,例如所有null值都将排在第一位。

一个小例子:

import java.sql.{ Date, Timestamp }
case class FooBar(foo:Date, bar:String)
val myDf = Seq(("2016-01-01","first"),("2016-01-02","second"),("2016-wrongFormat","noValidFormat"), ("2016-01-04","lastAssumingSameDate"))
         .toDF("foo","bar")
         .withColumn("foo", 'foo.cast("Date"))
         .as[FooBar]

结果

+----------+--------------------+
|       foo|                 bar|
+----------+--------------------+
|2016-01-01|               first|
|2016-01-02|              second|
|      null|       noValidFormat|
|2016-01-04|lastAssumingSameDate|
+----------+--------------------+

我想用最后一个众所周知的值修复该值。我怎样才能做到这一点?

+----------+--------------------+
|       foo|                 bar|
+----------+--------------------+
|2016-01-01|               first|
|2016-01-02|              second|
|2016-01-02|       noValidFormat|
|2016-01-04|lastAssumingSameDate|
+----------+--------------------+

修改

在我的情况下,填充上面一行的值就足够了,因为只有非常有限的错误值。

EDIT2

我尝试添加索引列

val myDf = Seq(("2016-01-01", "first"), ("2016-01-02", "second"), ("2016-wrongFormat", "noValidFormat"), ("2016-01-04", "lastAssumingSameDate"))
    .toDF("foo", "bar")
    .withColumn("foo", 'foo.cast("Date"))
    .as[FooBar]
    .withColumn("rowId", monotonically_increasing_id())

然后填写最后一个值。

myDf.withColumn("fooLag", lag('foo, 1) over Window.orderBy('rowId)).show

但是这会发出以下警告: 没有为窗口操作定义的分区!将所有数据移动到单个分区,这可能会导致严重的性能下降。我如何引入有意义的分区?

+----------+--------------------+-----+----------+
|       foo|                 bar|rowId|    fooLag|
+----------+--------------------+-----+----------+
|2016-01-01|               first|    0|      null|
|2016-01-02|              second|    1|2016-01-01|
|      null|       noValidFormat|    2|2016-01-02|
|2016-01-04|lastAssumingSameDate|    3|      null|
+----------+--------------------+-----+----------+

2 个答案:

答案 0 :(得分:0)

这是一个中间答案。但是,它不是很好,因为没有分区/只使用一个分区。我仍在寻找解决问题的更好方法

df
    .withColumn("rowId", monotonically_increasing_id())
    .withColumn("replacement", lag('columnWithNull, 1) over Window.orderBy('rowId))
    .withColumn("columnWithNullReplaced",
      when($"columnWithNull" isNull, "replacement").otherwise($"columnWithNull")

    )

修改

我正致力于使用mapPartitionsWithIndex构建更好的解决方案 https://gist.github.com/geoHeil/6a23d18ccec085d486165089f9f430f2尚未完成。

EDIT2

添加

if (i == 0) {
          lastNotNullRow = toCarryBd.value.get(i + 1).get
        } else {
          lastNotNullRow = toCarryBd.value.get(i - 1).get
        }

将导致预期的结果。

答案 1 :(得分:0)

//用最后一个未知的空值填充空字段 我尝试了,这实际上有效!!

val dftxt1 = spark.read.option("header","true").option("sep","\t").csv("/sdata/ph/com/r/ph_com_r_ita_javelin/inbound/abc.txt").toDF("line_name", "merge_key", "line_id")
dftxt2.select("line_name","merge_key","line_id").write.mode("overwrite").insertInto("dbname.tablename")

val df = spark.sql("select * from dbname.tablename")

val Df1 = df.withColumn("rowId", monotonically_increasing_id())

import org.apache.spark.sql.expressions.Window

val partitionWindow = Window.orderBy("rowId")

val Df2 = Df1.withColumn("line_id", last("line_id", true) over (partitionWindow))

Df2.show