Question

我有一个数据框，其中包含一个arraytype列，可以包含整数值。如果没有值，它将只包含一个值，它将是空值

重要：请注意，该列不会为null，而是具有单个值的数组;空

> val df: DataFrame  = Seq(("foo", Seq(Some(2), Some(3))), ("bar", Seq(None))).toDF("k", "v")
df: org.apache.spark.sql.DataFrame = [k: string, v: array<int>]
> df.show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
|bar|[null]|

问题：我想获取具有空值的行。

感谢您的帮助

到目前为止我尝试过：

> df.filter(array_contains(df("v"), 2)).show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
+---+------+

对于null，它似乎不起作用

> df.filter(array_contains(df("v"), null)).show()
org.apache.spark.sql.AnalysisException: cannot resolve 'array_contains(`v`, NULL)' due to data type mismatch: Null typed values cannot be used as arguments;

或

> df.filter(array_contains(df("v"), None)).show()
java.lang.RuntimeException: Unsupported literal type class scala.None$ None

Answer 1

在这种情况下无法使用array_contains，因为无法比较SQL NULL是否相等。

您可以像这样使用udf：

val contains_null = udf((xs: Seq[Integer]) => xs.contains(null))

df.where(contains_null($"v")).show

// +---+------+
// |  k|     v|
// +---+------+
// |bar|[null]|

Answer 2

对于 Spark 2.4+，您可以使用高阶函数 exists 代替 UDF：

df.where("exists(v, x -> x is null)").show

//+---+---+
//|  k|  v|
//+---+---+
//|bar| []|
//+---+---+

检查arraytype列是否包含null

2 个答案: