我正在尝试使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误。
当“ content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一文件夹中,是否会出现上述错误?
rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
此外,当上述命令起作用时,它会创建这些part-00000x.gz,这很好,但是
因此,将RDD保存到现有存储桶/文件夹中以解决上述情况的正确方法是什么?预先感谢。