Pyspark获取最大值不包括NaN

时间:2017-08-30 06:58:30

标签: apache-spark pyspark nan

df = spark.createDataFrame([(1.0,100.0, float('nan')), (float('nan'),100.0, 2.0)], ("a", "b"))
df.select(F.max(df.a)).show()

结果是:

+------+
|max(a)|
+------+
|   NaN|
+------+

我不想要NaN,我该怎么办?

1 个答案:

答案 0 :(得分:0)

你可以做到

df.na.fill(0) 

在您应用max过滤器

之前