Spark Dataframe中`float`与`np.nan`的比较

时间:2019-03-18 18:11:11

标签: python numpy apache-spark pyspark nan

这是预期的行为吗?我本来想提出Spark的问题,但这似乎是一种基本功能,很难想象这里有一个bug。我想念什么?

Python

import numpy as np

>>> np.nan < 0.0
False

>>> np.nan > 0.0
False

PySpark

from pyspark.sql.functions import col

df = spark.createDataFrame([(np.nan, 0.0),(0.0, np.nan)])
df.show()
#+---+---+
#| _1| _2|
#+---+---+
#|NaN|0.0|
#|0.0|NaN|
#+---+---+

df.printSchema()
#root
# |-- _1: double (nullable = true)
# |-- _2: double (nullable = true)

df.select(col("_1")> col("_2")).show()
#+---------+
#|(_1 > _2)|
#+---------+
#|     true|
#|    false|
#+---------+

1 个答案:

答案 0 :(得分:7)

这既是预期行为,也是有据可查的行为。引用官方NaN Semantics(重点是我的)的Spark SQL Guide部分:

  

在处理与标准浮点语义不完全匹配的float或double类型时,对非数字(NaN)进行了特殊处理。具体来说:

     
      
  • NaN = NaN返回true。
  •   
  • 在聚合中,所有NaN值都分组在一起。
  •   
  • 在连接键中,NaN被视为普通值。
  •   
  • NaN值升序排在最后,大于任何其他数值
  •   

AdAs与Python NaN相比,订购行为不是唯一的区别。特别是Spark认为NaN等于:

spark.sql("""
    WITH table AS (SELECT CAST('NaN' AS float) AS x, cast('NaN' AS float) AS y) 
    SELECT x = y, x != y FROM table
""").show()
+-------+-------------+
|(x = y)|(NOT (x = y))|
+-------+-------------+
|   true|        false|
+-------+-------------+

使用普通Python

float("NaN") == float("NaN"), float("NaN") != float("NaN")
(False, True)

和NumPy

np.nan == np.nan, np.nan != np.nan
(False, True)

不要。

您可以查看eqNullSafe docstring以获得更多示例。

因此,要获得理想的结果,您必须明确检查NaN's

from pyspark.sql.functions import col, isnan, when

when(isnan("_1") | isnan("_2"), False).otherwise(col("_1") > col("_2"))