在S3中写入Pyspark数据帧

时间:2019-05-15 06:37:13

标签: pyspark pyspark-sql

我有一个要在s3中编写的pyspark数据框。我的数据框看起来像-

id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

从s3读取数据帧时,它看起来像-

_c0         _c1       _c2           _c3         _c4
id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

出现一个新的标题。

我已经完成了-

df.coalesce(1).write.format('csv').mode('overwrite').option("header", "false")\
.save("s3a://xxx-aaa/data/group=XXX/my_data/")

# reading the data -
final_df = spark.read.csv(s3a://xxx-aaa/data/group=XXX/my_data/")

1 个答案:

答案 0 :(得分:0)

保存时使用此.option("header", "true"),读取时使用spark.read.csv(filepath,header = True)