当我使用
将数据帧写入S3时df.write
.format("parquet")
.mode("overwrite")
.partitionBy("year", "month", "day", "hour", "gen", "client")
.option("compression", "gzip")
.save("s3://xxxx/yyyy")
我在S3中得到以下内容
year=2018
year=2019
但我想改成这个:
year=2018
year=2018_$folder$
year=2019
year=2019_$folder$
从该S3位置读取的脚本取决于*_$folder$
条目,但是我还没有找到一种配置spark / hadoop生成它们的方法。
关于采用哪种hadoop或spark配置设置来控制*_$folder$
文件的生成的任何想法?
答案 0 :(得分:1)
那些标记了旧功能;我认为没有什么可以再创建它们了……尽管在实际列出目录时它们通常会被忽略。 (也就是说,即使在那里,它们也会从清单中剥离并替换为目录条目)。