计算Spark(Scala)中dataframe列中的空值

时间:2017-06-02 12:49:28

标签: scala apache-spark

我试图在DataFrame中的列中计算空值,如下所示:

df.filter((df(colname) === null) || (df(colname) === "")).count()

在colname中有一个列的名称。如果列类型是字符串,但是如果列类型是整数并且有一些空值,则此代码始终返回0,这样可以正常工作。为什么会这样?如何更改它以使其工作?

2 个答案:

答案 0 :(得分:1)

您可以使用isNull来测试null条件:

val df = Seq((Some("a"), Some(1)), (null, null), (Some(""), Some(2))).toDF("A", "B")
// df: org.apache.spark.sql.DataFrame = [A: string, B: int]

df.filter(df("A").isNull || df("A") === "").count
// res7: Long = 2

df.filter(df("B").isNull || df("B") === "").count
// res8: Long = 1

答案 1 :(得分:1)

正如df.filter((df(colname) === null) || (df(colname) === "")).count()适用于String数据类型的问题所述,但测试显示null未得到处理。

@ Psidom的答案处理nullempty,但不会处理NaN

检查.isNaN应该处理所有三种情况

df.filter(df(colName).isNull || df(colName) === "" || df(colName).isNaN).count()