查询初始和增量负载

时间:2019-06-01 15:33:48

标签: sql apache-spark-sql

我的要求是从源中获取24个月的数据,作为对目标表的初始加载。然后,将此数据保留在目标中,并保持定期将增量记录追加到此数据。基本上,源表的数据价值为5年,但用户仅对过去24个月及其后的数据感兴趣。

我要解决此逻辑/要求的尝试是使2Spark-Sql-scripts不同:
* 1脚本可提取24个月的初始数据,该脚本将仅运行一次

* 1脚本用于获取要附加到目标表的增量记录集,该记录集将定期进行计划。

脚本1-初始加载脚本:

select empid, emp_name, crt_dt  
from table1  
where crt_dt >= add_months(current_date(), -24)  

脚本2-每日增量脚本:

select empid, emp_name, crt_dt  
from table1  
where crt_dt > ${last_run_date}

${last_run_date}-存储上次执行日期。

如上所述,我必须使用2个单独的sql脚本来满足此要求。是否有任何更聪明的方法通过单个 Spark-Sql脚本来解决/自动执行此操作?一个可以同时处理两种情况的sql脚本?
如果需要其他信息,请告诉我。 谢谢

0 个答案:

没有答案