Spark DataFrame使列null值为空

时间:2016-05-17 06:49:55

标签: apache-spark dataframe

我加入了左外连接的两个数据框。生成的数据框具有空值。如何使它们为空而不是null。

| id|quantity|
+---+--------
|  1|    null|
|  2|    null|
|  3|    0.04

这是架构

root
|-- id: integer (nullable = false)
|-- quantity: double (nullable = true)

预期产出

| id|quantity|
+---+--------
|  1|        |
|  2|        |
|  3|    0.04

1 个答案:

答案 0 :(得分:4)

你不能让它们“空”,因为它们是双值而空字符串""是一个字符串。您可以做的最好的事情是将它们保留为空值或使用fill函数将它们设置为0:

val df2 = df.na.fill(0.,Seq("quantity"))

否则,如果您确实想要空数量,则应考虑将quantity列类型更改为String。