HDInsight与Azure上的虚拟化Hadoop集群

时间:2015-02-05 01:01:30

标签: azure hadoop hdinsight

我正在研究使用Hadoop集群的两种方案,第一种是使用HDInsight(使用Blob或HDFS存储),第二种方法是在Microsoft Azure上部署功能强大的Windows Server并运行HDP(Hortonwork数据处理)在它上面(使用虚拟化)。第二种选择为我提供了更大的灵活性,但我感兴趣的是调查每种方案的开销。有什么想法吗?特别是Blob存储对效率的影响如何?

1 个答案:

答案 0 :(得分:2)

这是一个非常广泛的问题,所以答案是"它取决于,"在这里是合适的。当我与客户交谈时,这就是我看到他们做出权衡的方式。它是一端的控制范围,另一端是便利。您对部署的Linux发行版或Hadoop发行版有具体要求吗?然后你会想要使用IaaS并简单地部署在那里。这很棒,你可以获得很多控制权,但修补和操作仍然是你的责任。

我们将HDInsight称为托管服务,我们的意思是我们会为您运行它(例如,我们在群集上提供了一个SLA,以及在其上运行的应用程序,而不是只是"我可以ping vm")。我们运行该集群,修补操作系统,修补Hadoop等等。所以,那里有很多便利,但是,我们不允许您选择哪个Linux发行版或允许您在那里拥有任意一组Hadoop位。

从一个角度来看,HDInsight可以部署在任何Azure节点大小上,类似于IaaS VM(这是本周推出的新功能)。关于Blob效率的问题,你应该尝试两种方式,看看你的想法。关于Blob商店的好处是你获得了更大的经济灵活性,你可以在大量数据上部署一个小集群,如果该集群只需要在一小块数据上运行(相比之下,将它全部放在HDFS中,你可以在那里需要所有节点一直运行以适应所有数据)。