我用8节点集群创建了azure hdinsight。我正在运行hive查询,它占用了所有工作节点。 当我检查纱线节点列表时,列出以下内容:
Node-Id Node-State Node-Http-Address No-of-Running-Containers
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
X.X.X.X:00050 RUNNING X.X.X.X:00060 8
几个小时后,mapper已经完成并且正在运行2个reducer,如下所示:
Node-Id Node-State Node-Http-Address No-of-Running-Containers
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
X.X.X.X:00050 RUNNING X.X.X.X:00060 1
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
X.X.X.X:00050 RUNNING X.X.X.X:00060 1
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
X.X.X.X:00050 RUNNING X.X.X.X:00060 0
到达此阶段时,我们是否可以缩小不影响正在运行的2个工作节点的群集?
答案 0 :(得分:0)
就我个人而言,我还没有尝试扩展正在运行的HDInsight群集,但我已经在支持的群集扩展操作(工作正在运行时)上阅读了官方documentation。支持的应用程序是:
您可能不应该在运行Hive查询时进行扩展,因为(1)Hive不在列表中,(2)文档描述了如果您按照以下方式运行作业缩小Hadoop作业会发生什么。恕我直言,这也可能发生在Hive工作中。
通过减少数据量来缩小Hadoop集群的规模 节点,群集中的某些服务重新启动。这导致 所有正在运行和挂起的作业在完成扩展时失败 操作。但是,您可以在操作后重新提交作业 完整。
答案 1 :(得分:0)
AFAIK HDInsights群集可能有两种类型的自动缩放,您可以从azure门户进行管理- 1.)时间表基础。 -如给定时间表(晚上8点-上午5点-仅2个节点) 2.)负载基础-如果30分钟左右未使用节点,则将其删除。
https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-autoscale-clusters
我认为您可以为案例使用基于负载的自动缩放。