inputfile='s3a://storename/stores.csv'
output_file='s3a://storename/newstores.parquet'
创建的数据框由三列Id
,Type
,Size
组成。
df=spark.read.format("csv").option("header","true").load(inputfile)
创建了另一个数据框,并从Type
中选择了两列Size
,df
。
df1=df.select("Type","Size")
df1.show()
Type Size
A 5847
A 9887
B 9873
将其写入镶木地板中的s3
中,并按列Type
进行分区:
df1.write.partitionBy("Type").format("parquet").save(output_file).
我的分区文件名对象键如下所示:
Type=A
Type=B
有什么方法可以编辑,以便使我的s3
对象键如下所示?我是spark
和AWS
的新手。谢谢。
A_file.parquet
B_file.parquet