如何加快此查询以检索所有配置单元表的lastUpdateTime?

时间:2019-06-14 11:18:15

标签: bash hive

我创建了一个bash脚本(GitHub Link)来查询所有配置单元数据库;查询其中的每个表,并解析这些表的lastUpdateTime并将其提取到具有“ tablename,lastUpdateTime”列的csv中。

但是该查询很慢,因为在每次迭代中,对“ hive -e ...”的调用都会启动一个新的hive cli命令,该命令需要花费大量时间才能加载。

是否有一种方法可以加快蜂巢cli的加载速度,或者以其他方式加快查询速度来解决同一问题?

我曾考虑过在脚本开始时仅加载一次蜂巢cli,然后尝试使用! <command>方法从蜂巢cli内调用bash命令,但不确定如何在cli内执行循环并且如果我可以处理bash脚本文件中的循环并执行该循环,那么我不确定如何将在hive cli中执行的查询结果作为该脚本的参数传递。

如果不提供我要在其上运行的系统的规范,该脚本每分钟可以处理约10个表,考虑到我们要对其应用数据库的数千个表,我认为这确实很慢。

0 个答案:

没有答案