如何覆盖在pyspark中特定列上分区的特定orc分区中的数据?

时间:2019-09-04 13:29:57

标签: pyspark-sql orc

我有每天要处理的数据,并保存在基于calendar_date进行分区的orc分区中。现在对于特定日期,第二天可能会收集一些额外的数据使用我已经为该特定calendar_date收集的数据。我想在pyspark中使用相同的calendar_date覆盖特定的兽人分区。我知道如何在配置单元中实现这一目标。有什么办法可以在带有orc分区的pyspark中完成同样的工作吗?

0 个答案:

没有答案