如何在两个非常相似的查询之间使用Hive缓存

时间:2019-06-11 21:32:19

标签: caching hive

我正在通过Spark作业运行配置单元查询。现在,每个spark作业都执行一个特定的步骤,其中包括执行配置单元查询和更新mongo集合。

我正在研究的一个特定用例需要更新两个mongo集合。这意味着我需要编写两个spark步骤,第一步是计算统计信息并将其插入到collection1中,而第二步将状态更新为collection2。

这两个查询都包含大约12个CTE,其中11个CTE完全相同,除了最后一个准备输出数据。

我的问题是,有什么方法可以在两个启动步骤之间缓存查询结果吗?

0 个答案:

没有答案