如何识别Scala Spark中两个数组之间的交集?

时间:2017-06-21 13:31:17

标签: arrays scala

我有四个数组,包含四个数据帧的列名。

var col1 = df1.columns
var col2 = df2.columns
var col3 = df3.columns
var col4 = df4.columns

它们都是Array [String]。现在的问题是识别那些通常出现在所有4个数组中的列和那些不存在的列。 我想一个人可以从找到两个Arrays的交集然后循环它开始。有任何想法吗 ?我们可以将它扩展到N维数组。

因此,这个想法不只是识别两个阵列之间的交叉,而是识别多个阵列,并确定差异

1 个答案:

答案 0 :(得分:2)

您可以创建这些数组的列表,并将reduceintersect函数一起使用:

List(col1, col2, col3, col4).reduce((a, b) => a intersect b)