从管道和逗号分隔的文件中创建数据帧

时间:2019-02-20 19:56:00

标签: pyspark

我正在尝试从具有以下格式的数据Feed中创建数据框架,

ABC,13:10,23| PQR,01:20,2| XYZ,07:30,14  
BCD,11:40,13| ABC,05:50,9| RST,17:20,5

每个记录都由管道分隔,并且每3个记录中就有3个子记录。

我打算将每个子记录作为一列,并将每个记录记录在数据帧的一行中,因此以上结果将导致3列和9行。

col1    col2     col3 
ABC     13:10     23
PQR     01:20      2

1 个答案:

答案 0 :(得分:0)

from pyspark.sql.functions import split, explode    
df = spark.read.text("/path/to/data.csv")
df.select(explode(split(df["value"], "\|"))).show()