我有两个数据集,其列具有集合的类型(例如,由collect_set
函数生成的列)
我想在一些连接中合并它们...即:
SELECT
...
SOME_MERGE_FUNCTION(x.x_set, y.y_set) as unioned_set
FROM x LEFT OUTER JOIN y ON ...
在spark sql中是否有类似SOME_MERGE_FUNCTION
的函数,它基本上会创建x_set
和y_set
的联合?
答案 0 :(得分:0)
首先,没有 set 列这样的东西。 collect_list
会返回ArrayType
列。
此外,没有用于集合交叉的内置函数。您可以做的最好是使用UserDefinedFunction
,例如Array Intersection in Spark SQL