我的要求是从源中获取24
个月的数据,作为对目标表的初始加载。然后,将此数据保留在目标中,并保持定期将增量记录追加到此数据。基本上,源表的数据价值为5年,但用户仅对过去24个月及其后的数据感兴趣。
我要解决此逻辑/要求的尝试是使2
与Spark-Sql-scripts
不同:
* 1
脚本可提取24
个月的初始数据,该脚本将仅运行一次
和
* 1
脚本用于获取要附加到目标表的增量记录集,该记录集将定期进行计划。
脚本1-初始加载脚本:
select empid, emp_name, crt_dt
from table1
where crt_dt >= add_months(current_date(), -24)
脚本2-每日增量脚本:
select empid, emp_name, crt_dt
from table1
where crt_dt > ${last_run_date}
${last_run_date}
-存储上次执行日期。
如上所述,我必须使用2个单独的sql脚本来满足此要求。是否有任何更聪明的方法通过单个 Spark-Sql
脚本来解决/自动执行此操作?一个可以同时处理两种情况的sql脚本?
如果需要其他信息,请告诉我。
谢谢