这是预期的行为吗?我本来想提出Spark的问题,但这似乎是一种基本功能,很难想象这里有一个bug。我想念什么?
Python
import numpy as np
>>> np.nan < 0.0
False
>>> np.nan > 0.0
False
PySpark
from pyspark.sql.functions import col
df = spark.createDataFrame([(np.nan, 0.0),(0.0, np.nan)])
df.show()
#+---+---+
#| _1| _2|
#+---+---+
#|NaN|0.0|
#|0.0|NaN|
#+---+---+
df.printSchema()
#root
# |-- _1: double (nullable = true)
# |-- _2: double (nullable = true)
df.select(col("_1")> col("_2")).show()
#+---------+
#|(_1 > _2)|
#+---------+
#| true|
#| false|
#+---------+
答案 0 :(得分:7)
这既是预期行为,也是有据可查的行为。引用官方NaN Semantics(重点是我的)的Spark SQL Guide部分:
在处理与标准浮点语义不完全匹配的float或double类型时,对非数字(NaN)进行了特殊处理。具体来说:
- NaN = NaN返回true。
- 在聚合中,所有NaN值都分组在一起。
- 在连接键中,NaN被视为普通值。
- NaN值升序排在最后,大于任何其他数值。
AdAs与Python NaN相比,订购行为不是唯一的区别。特别是Spark认为NaN等于:
spark.sql("""
WITH table AS (SELECT CAST('NaN' AS float) AS x, cast('NaN' AS float) AS y)
SELECT x = y, x != y FROM table
""").show()
+-------+-------------+
|(x = y)|(NOT (x = y))|
+-------+-------------+
| true| false|
+-------+-------------+
使用普通Python
float("NaN") == float("NaN"), float("NaN") != float("NaN")
(False, True)
和NumPy
np.nan == np.nan, np.nan != np.nan
(False, True)
不要。
您可以查看eqNullSafe
docstring以获得更多示例。
因此,要获得理想的结果,您必须明确检查NaN's
from pyspark.sql.functions import col, isnan, when
when(isnan("_1") | isnan("_2"), False).otherwise(col("_1") > col("_2"))