在pyspark中分解Maptype列

时间:2019-03-07 09:31:28

标签: apache-spark pyspark apache-spark-sql explode

我有一个这样的数据框

data = [(("ID1", {'A': 1, 'B': 2}))]
df = spark.createDataFrame(data, ["ID", "Coll"])
df.show()

+---+----------------+
| ID|            Coll|
+---+----------------+
|ID1|[A -> 1, B -> 2]|
+---+----------------+

df.printSchema()
root
 |-- ID: string (nullable = true)
 |-- Coll: map (nullable = true)
 |    |-- key: string
 |    |-- value: long (valueContainsNull = true)

我想爆炸“ Coll”列,这样

+---+-----------+
| ID| Key| Value|
+---+-----------+
|ID1|   A|     1|
|ID1|   B|     2| 
+---+-----------+

我正试图在pyspark中做到这一点

如果我只使用一列,那我就成功了,但是我也想要ID列

df.select(explode("Coll").alias("x", "y")).show()

+---+---+
|  x|  y|
+---+---+
|  A|  1|
|  B|  2|
+---+---+

1 个答案:

答案 0 :(得分:1)

只需将ID列添加到select,它应该可以工作:

df.select("id", explode("Coll").alias("x", "y"))