我试图在DataFrame中的列中计算空值,如下所示:
df.filter((df(colname) === null) || (df(colname) === "")).count()
在colname中有一个列的名称。如果列类型是字符串,但是如果列类型是整数并且有一些空值,则此代码始终返回0,这样可以正常工作。为什么会这样?如何更改它以使其工作?
答案 0 :(得分:1)
您可以使用isNull
来测试null
条件:
val df = Seq((Some("a"), Some(1)), (null, null), (Some(""), Some(2))).toDF("A", "B")
// df: org.apache.spark.sql.DataFrame = [A: string, B: int]
df.filter(df("A").isNull || df("A") === "").count
// res7: Long = 2
df.filter(df("B").isNull || df("B") === "").count
// res8: Long = 1
答案 1 :(得分:1)
正如df.filter((df(colname) === null) || (df(colname) === "")).count()
适用于String
数据类型的问题所述,但测试显示null
未得到处理。
@ Psidom的答案处理null
和empty
,但不会处理NaN
。
检查.isNaN
应该处理所有三种情况
df.filter(df(colName).isNull || df(colName) === "" || df(colName).isNaN).count()