我刚刚在HDInsight中设置了一个Hadoop集群,并试图开始使用Hadoop。我已在群集上启用远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。该文档将此框称为头节点,并有一个额外的步骤,讨论将数据复制到hadoop集群。这困惑了我。
我有以下问题:
当我将数据从桌面复制到我登录的盒子时,是不是实际上将数据复制到hadoop?
第一次复制操作与第二次复制操作有何不同?
Hadoop中的头节点是什么?
答案 0 :(得分:7)
HDInsight群集中的头节点是机器运行构成Hadoop平台的一些服务,包括名称节点和作业跟踪器。从广义上讲,控制数据的位置,以及计算分别发生的位置。
要使用HDInsight,您实际上不需要登录此头节点,并且 不需要使用远程桌面来使用它。我建议使用powershell方法http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx为您提供一个很好的指南来设置它。
就将数据复制到集群而言,这与将数据复制到头节点(只是一台机器)不同。设置HDInsight群集时,还会将其链接到Azure存储帐户。您需要将数据上载到blobs存储帐户,以使其可供群集访问。有很多好的工具可以帮助解决这个问题,我建议Azure Explorer - 披露:我为制作它的人工作,但它是免费的:)。