Question

我想将数据框保存到s3，但是当我将文件保存到s3时，它会创建一个${folder_name}的空文件，我要在其中保存文件。

保存数据帧的语法： -

f.write.parquet("s3n://bucket-name/shri/test")

它会将文件保存在测试文件夹中，但会在$test下创建shri。

有没有办法可以在不创建额外文件夹的情况下保存它？

Answer 1

我能够通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

Answer 2

据我所知，没有办法控制实际镶木地板文件的命名。将数据框写入镶木地板时，指定目录名称应该是什么，spark会在该目录下创建相应的镶木地板文件。

Answer 3

我确实在堆栈上找到了类似的帖子，这里是链接。它回答了这个问题。