有没有办法可以从Spark程序中替换(现有的)hive分区?仅替换最新分区,其余分区保持不变。
以下是我正在努力解决的想法,
我们从RDBMS系统获得每分钟进入HDFS的跨国数据。将有一个火花程序(每5或10分钟运行一次)读取数据,执行ETL并将输出写入Hive表。 因为覆盖整个蜂巢表会很大, 我们想只为今天的分区覆盖hive表。 结束时,源和目标分区将更改为第二天。
提前致谢
答案 0 :(得分:0)
如果您知道配置单元表位置,请将当前日期附加到位置,因为您的表在日期分区并覆盖hdfs路径。
df.write.format(source).mode("overwrite").save(path)
Msck repair hive table
一旦完成