Question

我有一个数据框，我想合并到另一个数据帧，但只影响特定的单元而不是整行。

旧数据框：

## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## |  1|  aa|  ab|
## |  2|  bb|  bc|
## +---+----+----+

新数据框：

## +---+----+
## |key|val1|
## +---+----+
## |  2| bbb|
## +---+----+

结果：

## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## |  1|  aa|  ab|
## |  2| bbb|  bc|
## +---+----+----+

在这种情况下，密钥是唯一的，因此受影响的行始终是可识别的。旧数据帧也将始终包含新数据帧中的键。

由于数据帧是不可变的，我必须调用withColumn来创建一个新的，可能是通过传递某种UDF，但是当涉及到UDF应包含的内容时，我有点迷失。

Answer 1

您需要使用外部联接来获得预期的输出：

scala> val oldDf = Seq((1, "aa", "ab"), (2, "bb", "bc")).toDF("key", "val1", "val2").as("old")
// oldDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string ... 1 more field]
scala> val newDf = Seq((2, "bbb")).toDF("key", "val1").as("new")
// newDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string]

scala> oldDf.join(newDf, Seq("key"), "outer").select($"key", coalesce($"new.val1", $"old.val1").alias("val1"), $"val2").show
// +---+----+----+
// |key|val1|val2|
// +---+----+----+
// |  1|  aa|  ab| 
// |  2| bbb|  bc|
// +---+----+----+

注意： coalesce会选择new.val1和old.val1之间的第一个非空值。

更新Spark DataFrame中的某些行值

1 个答案: