Question

当我使用

将数据帧写入S3时

df.write
  .format("parquet")
  .mode("overwrite")
  .partitionBy("year", "month", "day", "hour", "gen", "client")
  .option("compression", "gzip")
  .save("s3://xxxx/yyyy")

我在S3中得到以下内容

year=2018
year=2019

但我想改成这个：

year=2018
year=2018_$folder$
year=2019
year=2019_$folder$

从该S3位置读取的脚本取决于*_$folder$条目，但是我还没有找到一种配置spark / hadoop生成它们的方法。

关于采用哪种hadoop或spark配置设置来控制*_$folder$文件的生成的任何想法？

Answer 1

那些标记了旧功能；我认为没有什么可以再创建它们了……尽管在实际列出目录时它们通常会被忽略。（也就是说，即使在那里，它们也会从清单中剥离并替换为目录条目）。

如何配置spark，使其在S3中创建“ _ $ folder $”条目？

1 个答案: