我们已开始研究测试tez查询引擎。从最初的结果来看,我们在较小的数据集(1-10 GB)上比Hive的性能提升了30%,但随着数据大小的增加,Hive的性能开始优于Tez。就像我们使用Tez对大约1.3 TB的数据运行hive查询一样,它的性能比单独的hive差。(性能降低约20%)详情见下文。
http://www.jwplayer.com/blog/hive-with-tez-on-emr/
在具有1.3 TB RAM的群集上,我设置了以下属性:
set tez.task.resource.memory.mb=10000;
set tez.am.resource.memory.mb=59205;
set tez.am.launch.cmd-opts =-Xmx47364m;
set hive.tez.container.size=59205;
set hive.tez.java.opts=-Xmx47364m;
set tez.am.grouping.max-size=36700160000;
是正常还是我遗漏了一些属性/没有正确配置某些属性?此外,我现在使用旧版Tez。这可能也是问题吗?我仍然要在EMR上引导最新版本的Tez并对其进行测试,看看是否可以做得更好