Spark避免分区覆盖

时间:2016-06-07 20:25:47

标签: python apache-spark pyspark

我正在编写一个Spark应用程序,它将日志数据保存到目录/logroot

我的代码是

myDF.mode('overwrite').partitionBy('date','site').save('logroot')

我想使用overwrite模式,以便每周多次重复处理所有日常数据。

我担心overwrite会清除所有logroot目录,而不仅仅是所涉及的分区。

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

在撰写最佳解决方案的那一刻似乎:

  • 从初始数据框中提取应清理的分区名称
  • 使用hadoop fs api
  • 清理这些分区
  • 使用append mode
  • 保存数据框

感谢所有人的帮助,希望Spark家伙能提供更优雅的解决方案。

罗伯特