群集和存储帐户之间的微软天蓝色差异

时间:2016-03-18 16:57:28

标签: azure hdinsight azure-data-lake

我正在向this course学习。它要求创建一个新的hdinsight集群(选项是hadoop,hbase,storm或spark)以及存储帐户。群集和存储帐户之间有什么区别?集群是否包含处理器以处理我的作业,存储帐户是否意味着存储数据的空间?为什么我不能用不同的集群连接相同的存储帐户?

同样在Microsoft Azure>>下新>>数据+分析,我看到2个选项:hdinsight,处理大数据的数据湖分析。这两者有什么区别?两者看起来相似

HDInsight 微软基于云的大数据服务。 Apache Hadoop和其他流行的大数据解决方案。

Data Lake Analytics 大数据分析变得简单

1 个答案:

答案 0 :(得分:3)

这里有很多问题,所以让我逐一回答。

什么是Blob存储与HDInsight群集? Blob存储是一种非常类似于HDFS的分布式文件存储,用于存储数据/视频/事物。 HDInsight群集是为在DFS(HDFS或Blob存储)上运行Map Reduce代码而创建的许多Hadoop虚拟机。拥有两个独立的服务允许您独立扩展,从长远来看可以节省资金。数据存储很便宜,但500节点VM群集可能会很快变得昂贵。能够杀死群集但保留数据是有帮助的。

为什么我不能将同一存储帐户连接到不同的群集? 您可以将多个群集指向同一存储帐户,但它是反模式。存储帐户具有数据和IO限制,如果您有多个群集在单个存储帐户上进行操作,则更有可能会遇到它们。此外,如果您拥有数据,则存储帐户只需花费$$,因此拥有多个不会增加成本。

什么是Azure Data Lake(ADL)和ADL存储? Azure数据湖是存储和计算的另一种选择。 ADL存储可以被认为是blob存储v2。您可以从blob存储中增加IO和文件大小的某些限制,同时仍然可以使用Hadoop进行计算。 ADL是计算的第二个选项,与Hadoop完全不同。您不必担心群集创建或群集。您编写查询,指定您想要的并行化数量,并返回数据。

<强>参考文献:

https://azure.microsoft.com/en-us/documentation/articles/azure-subscription-service-limits/#storage-limits

https://azure.microsoft.com/en-us/services/hdinsight/

https://azure.microsoft.com/en-us/solutions/data-lake/