在Spark SQL数据框中压缩和分解多个列

时间:2019-10-07 13:52:16

标签: apache-spark apache-spark-sql user-defined-functions apache-spark-dataset array-explode

我具有以下结构的数据框:

A: Array[String]   | B: Array[String] | [ ... multiple other columns ...]
=========================================================================
[A, B, C, D]       | [1, 2, 3, 4]     | [ ... array with 4 elements ... ]
[E, F, G, H, I]    | [5, 6, 7, 8, 9]  | [ ... array with 5 elements ... ]
[J]                | [10]             | [ ... array with 1 element ...  ]

我想写一个UDF,

  1. 将元素压缩到DF中每列的第i个位置
  2. 在每个这些压缩元组上分解DF

结果列应如下所示:

ZippedAndExploded: Array[String]
=================================
[A, 1, ...]
[B, 2, ...]
[C, 3, ...]
[D, 4, ...]
[E, 5, ...]
[F, 6, ...]
[G, 7, ...]
[H, 8, ...]
[I, 9, ...]
[J, 10, ...]

目前,我正在对这样的UDF进行多次调用(每个列名一个,在运行时之前收集列名列表):

val myudf6 = udf((xa:Seq[Seq[String]],xb:Seq[String]) => {
  xa.indices.map(i => {
    xa(i) :+ xb(i) // Add one element to the zip column
  })
})

val allColumnNames = df.columns.filter(...)    

for (columnName <- allColumnNames) {
  df = df.withColumn("zipped", myudf8(df("zipped"), df(columnName))
}
df = df.explode("zipped")

由于数据框可以包含数百列,因此withColumn的迭代调用似乎需要很长时间。

问题:是否可以通过一个UDF和一个DF.withColumn(...)调用来完成?

重要:UDF应该压缩动态数量的列(在运行时读取)。

2 个答案:

答案 0 :(得分:2)

使用一个UDF,它以可变数量的列作为输入。这可以通过数组数组来完成(假设类型相同)。由于您有一个数组数组,因此可以使用transpose来达到与将列表压缩在一起相同的结果。然后可以分解生成的数组。

val array_zip_udf = udf((cols: Seq[Seq[String]]) => {
  cols.transpose
})

val allColumnNames = df.columns.filter(...).map(col)
val df2 = df.withColumn("exploded", explode(array_zip_udf(array(allColumnNames: _*))))

请注意,在 Spark 2.4 + 中,可以使用arrays_zip代替UDF

val df2 = df.withColumn("exploded", explode(arrays_zip(allColumnNames: _*)))

答案 1 :(得分:0)

如果您知道并确定数组中的值数量,则可以使用以下更简单的解决方案之一

select A[0], B[0]..... from your_table
union all
select A[1], B[1]..... from your_table
union all
select A[2], B[2]..... from your_table
union all
select A[3], B[3]..... from your_table