Pyspark将数据帧保存到S3

时间:2017-08-24 19:28:13

标签: python amazon-web-services amazon-s3 pyspark

我想将数据框保存到s3,但是当我将文件保存到s3时,它会创建一个${folder_name}的空文件,我要在其中保存文件。

保存数据帧的语法: -

f.write.parquet("s3n://bucket-name/shri/test")

它会将文件保存在测试文件夹中,但会在$test下创建shri

有没有办法可以在不创建额外文件夹的情况下保存它?

3 个答案:

答案 0 :(得分:4)

我能够通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

答案 1 :(得分:0)

据我所知,没有办法控制实际镶木地板文件的命名。将数据框写入镶木地板时,指定目录名称应该是什么,spark会在该目录下创建相应的镶木地板文件。

答案 2 :(得分:0)

我确实在堆栈上找到了类似的帖子,这里是链接。它回答了这个问题。

Junk Spark output file on S3 with dollar signs