我正在尝试在tez上使用Hive来查询存储在S3中的orc格式数据。 Tez AM计划任务非常缓慢,很多Map任务都在“PENDING”中保留了很长时间。
群集中有足够的资源(我想说的就足够了。有超过6TB的内存和超过1千个可用的存储空间,在这个工作中,每个容器只需要2GB的内存。这是唯一可以运行的内存。纱线集群),但我只是在调度任务方面做得很慢。
有什么方法可以加快这个程序吗?
答案 0 :(得分:0)
我遇到了同样的问题。
我决定更换Hive的引擎。
尝试使用此命令:
设置hive.execution.engine = mr;
在任何情况下,MR都是最好的选择。
AWS建议使用TEZ,但并非在所有情况下都始终如此。 您可以使用MapReduce。
https://docs.amazonaws.cn/en_us/emr/latest/ReleaseGuide/emr-hive-differences.html