将KV对的数据透视火花数据帧数组分成单独的列

时间:2019-08-12 18:23:48

标签: scala dataframe apache-spark apache-spark-sql pivot

我有以下架构:

root
 |-- id: string (nullable = true)
 |-- date: timestamp (nullable = true)
 |-- config: struct (nullable = true)
 |    |-- entry: array (nullable = true)
 |    |    |-- element: struct (containsNull = true)
 |    |    |    |-- key: string (nullable = true)
 |    |    |    |-- value: string (nullable = true)

数组中最多有3个键值对(k1,k2,k3),我想将每个键的值放入自己的列中,而相应的数据将来自相同的值kv对。

+--------+----------+----------+----------+---------+
|id      |date      |k1        |k2        |k3       |
+--------+----------+----------+----------+---------+
|    id1 |2019-08-12|id1-v1    |id1-v2    |id1-v3   |
|    id2 |2019-08-12|id2-v1    |id2-v2    |id2-v3   |
+--------+----------+----------+----------+---------+

到目前为止,我尝试过这样的事情:

sourceDF.filter($"someColumn".contains("SOME_STRING"))
      .select($"id", $"date", $"config.entry" as "kvpairs")
      .withColumn($"kvpairs".getItem(0).getField("key").toString(), $"kvpairs".getItem(0).getField("value"))
      .withColumn($"kvpairs".getItem(1).getField("key").toString(), $"kvpairs".getItem(1).getField("value"))
      .withColumn($"kvpairs".getItem(2).getField("key").toString(), $"kvpairs".getItem(2).getField("value"))

但是在这种情况下,列名显示为kvpairs[0][key]kvpairs[1][key]kvpairs[2][key],如下所示:

+--------+----------+---------------+---------------+---------------+
|id      |date      |kvpairs[0][key]|kvpairs[1][key]|kvpairs[2][key]|
+--------+----------+---------------+---------------+---------------+
|    id1 |2019-08-12|    id1-v1     |    id1-v2     |   id1-v3      |
|    id2 |2019-08-12|    id2-v1     |    id2-v2     |   id2-v3      |
+--------+----------+---------------+---------------+---------------+

两个问题:

  • 我的方法正确吗?有没有更好,更轻松的方法来解决这个问题 这样我就可以将3 kv对作为3列的每个阵列获得一行?我想处理kv对的顺序可能不同的情况。
  • 如果上述方法很好,如何将列名别名为数组中“键”元素的数据?

1 个答案:

答案 0 :(得分:1)

由于kv对的顺序可能不同,因此无法同时使用多个withColumngetItem。相反,您可以做的是爆炸数组,然后按如下所示使用pivot

sourceDF.filter($"someColumn".contains("SOME_STRING"))
  .select($"id", $"date", explode($"config.entry") as "exploded")
  .select($"id", $"date", $"exploded.*")
  .groupBy("id", "date")
  .pivot("key")
  .agg(first("value"))

这里在聚合中使用first的假设每个键都有一个值。否则,可以使用collect_listcollect_set

结果:

+---+----------+------+------+------+
|id |date      |k1    |k2    |k2    |
+---+----------+------+------+------+
|id1|2019-08-12|id1-v1|id1-v2|id1-v3|
|id2|2019-08-12|id2-v1|id2-v2|id2-v3|
+---+----------+------+------+------+