我有一个DataFrame
有n个字段,其中一个包含逗号分隔值为String
之类,另一个有整数值 -
field1 field2 field3 field4 .... fieldn
ID0101 AB,CDE 0.9 objA -----
ID1010 A,C,DE 0.7 objB -----
现在我必须将其转换为以下内容
field1 field2 field3 field4 .... fieldn
ID0101 AB 0.45 objA -----
ID0101 CDE 0.45 objA -----
ID1010 A 0.7 objB -----
ID1010 C 0.7 objB -----
ID1010 DE 0.7 objB -----
在DataFrame
中使用PySpark
。找到了Scala的FlatMap
版本,但我无法在Python中这样做。此外,由于我必须根据field3
的值拆分field4
的值,因此简单的explode
或flatmap
无法工作。
答案 0 :(得分:-1)
使用爆炸。例如:
from pyspark.sql.functions import explode
df = inputDF.withColumn("field2", explode("field2"))