如何配置spark,使其在S3中创建“ _ $ folder $”条目?

时间:2019-04-15 15:59:46

标签: scala apache-spark-sql amazon-emr

当我使用

将数据帧写入S3时
df.write
  .format("parquet")
  .mode("overwrite")
  .partitionBy("year", "month", "day", "hour", "gen", "client")
  .option("compression", "gzip")
  .save("s3://xxxx/yyyy")

我在S3中得到以下内容

year=2018
year=2019

但我想改成这个:

year=2018
year=2018_$folder$
year=2019
year=2019_$folder$

从该S3位置读取的脚本取决于*_$folder$条目,但是我还没有找到一种配置spark / hadoop生成它们的方法。

关于采用哪种hadoop或spark配置设置来控制*_$folder$文件的生成的任何想法?

1 个答案:

答案 0 :(得分:1)

那些标记了旧功能;我认为没有什么可以再创建它们了……尽管在实际列出目录时它们通常会被忽略。 (也就是说,即使在那里,它们也会从清单中剥离并替换为目录条目)。