Question

有没有办法可以从Spark程序中替换（现有的）hive分区？仅替换最新分区，其余分区保持不变。

以下是我正在努力解决的想法，

我们从RDBMS系统获得每分钟进入HDFS的跨国数据。将有一个火花程序（每5或10分钟运行一次）读取数据，执行ETL并将输出写入Hive表。因为覆盖整个蜂巢表会很大，我们想只为今天的分区覆盖hive表。结束时，源和目标分区将更改为第二天。

提前致谢

Answer 1

如果您知道配置单元表位置，请将当前日期附加到位置，因为您的表在日期分区并覆盖hdfs路径。

df.write.format(source).mode("overwrite").save(path)

Msck repair hive table

一旦完成