标签: caching hive
我正在通过Spark作业运行配置单元查询。现在,每个spark作业都执行一个特定的步骤,其中包括执行配置单元查询和更新mongo集合。
我正在研究的一个特定用例需要更新两个mongo集合。这意味着我需要编写两个spark步骤,第一步是计算统计信息并将其插入到collection1中,而第二步将状态更新为collection2。
这两个查询都包含大约12个CTE,其中11个CTE完全相同,除了最后一个准备输出数据。
我的问题是,有什么方法可以在两个启动步骤之间缓存查询结果吗?