如何透视Spark数据框表?

时间:2018-09-03 13:45:22

标签: scala apache-spark apache-spark-sql

我有3列的表格:

+---+----+----+
| id|type| val|
+---+----+----+
|  1|   A|   0|
|  2|   A|   0|
|  4|   A|   0|
|  2|   B|   1|
|  4|   B|   1|
+---+----+----+

,我想将其转换为:

+---+----+----+
|   |   A|   B|
+---+----+----+
|  1|   0|   -|
|  2|   1|   1|
|  4|   0|   1|
+---+----+----+

我尝试了一下,但是没用:

val data_array = data.pivot(cols=['type'],rows=['id'],values='val')

1 个答案:

答案 0 :(得分:1)

df.groupBy("id").pivot("type").agg(first("value")).na.fill("-").show

df是从测试数据文件创建的数据框