我有一个纱线资源约15 TB的集群。我试图通过Hive提交一个查询。我在纱线上的默认容器大小是4GB。为该查询分配的映射器数量大约为1000.我的纱线队列中总共分配了10%的资源。因此,在一个时间点仅分配430个容器。每个映射器总共分配了1个容器。 HDFS上的块大小为128 MB。我如何优化查询。
答案 0 :(得分:0)
您已经提到了内存设置,听起来很不错,因此您优化查询的后续步骤(因为您没有提供)
SET tez.queue.name
)WHERE
子句将Hive表分区到最有意义的列上。