从Spark

时间:2018-02-06 23:20:10

标签: apache-spark apache-spark-sql spark-dataframe hiveql

有没有办法可以从Spark程序中替换(现有的)hive分区?仅替换最新分区,其余分区保持不变。

以下是我正在努力解决的想法,

我们从RDBMS系统获得每分钟进入HDFS的跨国数据。将有一个火花程序(每5或10分钟运行一次)读取数据,执行ETL并将输出写入Hive表。 因为覆盖整个蜂巢表会很大, 我们想只为今天的分区覆盖hive表。 结束时,源和目标分区将更改为第二天。

提前致谢

1 个答案:

答案 0 :(得分:0)

如果您知道配置单元表位置,请将当前日期附加到位置,因为您的表在日期分区并覆盖hdfs路径。

df.write.format(source).mode("overwrite").save(path)

Msck repair hive table

一旦完成