如何配置和重新启动在Azure上运行的HDInsight群集?

时间:2013-06-27 12:49:58

标签: hadoop cluster-computing configure reboot hdinsight

具体来说,我想更改在Microsoft Azure上运行的HDInsight群集中每个节点的最大映射器数和最大减速器数。

使用远程桌面,我登录到头节点。我在头节点上编辑了mapred-site.xml文件,并更改了mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum值。我尝试重新启动头节点,但我无法重启。我使用start-onebox.cmd和stop-onebox.cmd脚本来尝试启动/停止HDInsight。

然后我运行了一个流mapreduce,将所需数量的reducer传递给hadoop-streaming.jar,但是reducer的数量仍然受到mapred.tasktracker.reduce.tasks.maximum之前值的限制。我的大多数减速器都在等待执行。

我是否需要在每个节点上更改mapred-site.xml文件?有没有一种简单的方法可以改变这种情况,还是需要远程桌面进入每个节点?如何重新启动或重新启动群集以便使用我的新值?

由于

1 个答案:

答案 0 :(得分:2)

我知道自问题发布以来已经有一段时间了,但我想发帖给其他可能觉得有用的用户。

有两种方法可以在HDinsight上更改Hadoop配置文件(例如mapred-site.xml,hive-site.xml等)

选项#1: 这是最简单的 - 您可以为每个作业提供hadoop配置值,如blog

所示

选项#2: 您可以在配置或安装群集期间使用hadoop配置值自定义HDinsight群集,如此blog

所示

不支持手动修改配置文件,并且在重新映像Azure VM时,更改将会丢失。