Azure HDInsight:hadoop集群中的头节点是什么?

时间:2013-10-30 12:14:04

标签: azure hadoop hdinsight

我刚刚在HDInsight中设置了一个Hadoop集群,并试图开始使用Hadoop。我已在群集上启用远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。该文档将此框称为头节点,并有一个额外的步骤,讨论将数据复制到hadoop集群。这困惑了我。

我有以下问题:

  1. 当我将数据从桌面复制到我登录的盒子时,是不是实际上将数据复制到hadoop?

  2. 第一次复制操作与第二次复制操作有何不同?

  3. Hadoop中的头节点是什么?

1 个答案:

答案 0 :(得分:7)

HDInsight群集中的头节点是机器运行构成Hadoop平台的一些服务,包括名称节点和作业跟踪器。从广义上讲,控制数据的位置,以及计算分别发生的位置。

要使用HDInsight,您实际上不需要登录此头节点,并且 不需要使用远程桌面来使用它。我建议使用powershell方法http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx为您提供一个很好的指南来设置它。

就将数据复制到集群而言,这与将数据复制到头节点(只是一台机器)不同。设置HDInsight群集时,还会将其链接到Azure存储帐户。您需要将数据上载到blobs存储帐户,以使其可供群集访问。有很多好的工具可以帮助解决这个问题,我建议Azure Explorer - 披露:我为制作它的人工作,但它是免费的:)。