我正在尝试从具有以下格式的数据Feed中创建数据框架,
ABC,13:10,23| PQR,01:20,2| XYZ,07:30,14
BCD,11:40,13| ABC,05:50,9| RST,17:20,5
每个记录都由管道分隔,并且每3个记录中就有3个子记录。
我打算将每个子记录作为一列,并将每个记录记录在数据帧的一行中,因此以上结果将导致3列和9行。
col1 col2 col3
ABC 13:10 23
PQR 01:20 2
答案 0 :(得分:0)
from pyspark.sql.functions import split, explode
df = spark.read.text("/path/to/data.csv")
df.select(explode(split(df["value"], "\|"))).show()