我有一个要在s3中编写的pyspark数据框。我的数据框看起来像-
id age gender salary item
1 32 M 30000 A
2 28 F 27532 B
3 39 M 32000 A
4 22 F 22000 C
从s3读取数据帧时,它看起来像-
_c0 _c1 _c2 _c3 _c4
id age gender salary item
1 32 M 30000 A
2 28 F 27532 B
3 39 M 32000 A
4 22 F 22000 C
出现一个新的标题。
我已经完成了-
df.coalesce(1).write.format('csv').mode('overwrite').option("header", "false")\
.save("s3a://xxx-aaa/data/group=XXX/my_data/")
# reading the data -
final_df = spark.read.csv(s3a://xxx-aaa/data/group=XXX/my_data/")
答案 0 :(得分:0)
保存时使用此.option("header", "true")
,读取时使用spark.read.csv(filepath,header = True)