区分数据框列(pyspark)中的空值和空白值

时间:2018-07-12 12:32:13

标签: pyspark apache-spark-sql

我想知道是否存在任何可以帮助我区分实空值和空值的方法或东西。 据我所知,dataframe正在将空值视为null。

非常感谢。

2 个答案:

答案 0 :(得分:0)

Spark数据帧列具有isNull方法。

df = sqlContext.createDataFrame([
    (0, 1, 2, 5, None),
    (1, 1, 2, 3, ''), # this is blank
    (2, 1, 2, None, None) # this is null
], ["id", '1', '2', '3', '4'])

如您所见,第二行的“ 4”列空白值被过滤:

df.filter(df['4'].isNull()).show()
+---+---+---+----+----+
| id|  1|  2|   3|   4|
+---+---+---+----+----+
|  0|  1|  2|   5|null|
|  2|  1|  2|null|null|
+---+---+---+----+----+

答案 1 :(得分:0)

肯定有

Df.filter((df.4.isNull())|(df.4 ==‘’))。show()

这应该有效