我的数据框看起来像-
+----+----+-------------+
|col1|col2| col3|
+----+----+-------------+
| 1| A|[[[1, 2, 3]]]|
| 2| B| [[[3, 5]]]|
+----+----+-------------+
我想要数据框-
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 1| A| 1|
| 1| A| 2|
| 1| A| 3|
| 2| B| 3|
| 2| B| 5|
+----+----+----+
我的代码就像-
from pyspark.sql.functions import explode
df = spark.createDataFrame([(1, "A", [[[1,2,3]]]), (2, "B", [[[3,5]]])],["col1", "col2", "col3"])
df1 = df.withColumn("col3", explode(df.col3))
df1.show()
但是输出是-
+----+----+-----------+
|col1|col2| col3|
+----+----+-----------+
| 1| A|[[1, 2, 3]]|
| 2| B| [[3, 5]]|
+----+----+-----------+
如何使用pyspark中的爆炸功能解决问题
答案 0 :(得分:0)
在使用nested array
时,我们需要先通过{strong> flatten 在内置函数中使用flatten nested arrays
,然后再使用 explode 函数。
Try with:
from pyspark.sql.functions import *
df.withColumn("col3",explode(flatten(flatten(col("col3"))))).show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#| 1| A| 1|
#| 1| A| 2|
#| 1| A| 3|
#| 2| B| 3|
#| 2| B| 5|
#+----+----+----+
另一种方法是遍历nested array[0][0]
并按jxc
的注释中所述对最内层数组进行explode
。
df.withColumn("col3", explode(col("col3")[0][0])).show()