纱线容器尺寸和Tez容器管理

时间:2017-11-05 17:27:41

标签: hadoop hive containers yarn tez

我有一个纱线资源约15 TB的集群。我试图通过Hive提交一个查询。我在纱线上的默认容器大小是4GB。为该查询分配的映射器数量大约为1000.我的纱线队列中总共分配了10%的资源。因此,在一个时间点仅分配430个容器。每个映射器总共分配了1个容器。 HDFS上的块大小为128 MB。我如何优化查询。

1 个答案:

答案 0 :(得分:0)

您已经提到了内存设置,听起来很不错,因此您优化查询的后续步骤(因为您没有提供)

  • Additionally tune the Tez containers
  • 使您的HDFS输入文件大小与HDFS块的大小相同。
  • 如果您的队列已满,请使用其他队列。 (SET tez.queue.name
  • 根据您的WHERE子句将Hive表分区到最有意义的列上。
  • 确保数据存储为ORC w / ZLib压缩。
  • 尽可能使用LLAP