pyspark中的爆炸功能

时间:2020-03-15 03:41:12

标签: pyspark pyspark-sql pyspark-dataframes

我的数据框看起来像-

+----+----+-------------+
|col1|col2|         col3|
+----+----+-------------+
|   1|   A|[[[1, 2, 3]]]|
|   2|   B|   [[[3, 5]]]|
+----+----+-------------+

我想要数据框-

+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   A|   1|
|   1|   A|   2|
|   1|   A|   3|
|   2|   B|   3|
|   2|   B|   5|
+----+----+----+

我的代码就像-

from pyspark.sql.functions import explode
df = spark.createDataFrame([(1, "A", [[[1,2,3]]]), (2, "B", [[[3,5]]])],["col1", "col2", "col3"])
df1 = df.withColumn("col3", explode(df.col3))
df1.show()

但是输出是-

+----+----+-----------+
|col1|col2|       col3|
+----+----+-----------+
|   1|   A|[[1, 2, 3]]|
|   2|   B|   [[3, 5]]|
+----+----+-----------+

如何使用pyspark中的爆炸功能解决问题

1 个答案:

答案 0 :(得分:0)

在使用nested array时,我们需要先通过{strong> flatten 在内置函数中使用flatten nested arrays,然后再使用 explode 函数。

Try with:

from pyspark.sql.functions import *
df.withColumn("col3",explode(flatten(flatten(col("col3"))))).show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#|   1|   A|   1|
#|   1|   A|   2|
#|   1|   A|   3|
#|   2|   B|   3|
#|   2|   B|   5|
#+----+----+----+

另一种方法是遍历nested array[0][0]并按jxc的注释中所述对最内层数组进行explode

df.withColumn("col3", explode(col("col3")[0][0])).show()