标签: pyspark-sql orc
我有每天要处理的数据,并保存在基于calendar_date进行分区的orc分区中。现在对于特定日期,第二天可能会收集一些额外的数据使用我已经为该特定calendar_date收集的数据。我想在pyspark中使用相同的calendar_date覆盖特定的兽人分区。我知道如何在配置单元中实现这一目标。有什么办法可以在带有orc分区的pyspark中完成同样的工作吗?