我正在向this course学习。它要求创建一个新的hdinsight集群(选项是hadoop,hbase,storm或spark)以及存储帐户。群集和存储帐户之间有什么区别?集群是否包含处理器以处理我的作业,存储帐户是否意味着存储数据的空间?为什么我不能用不同的集群连接相同的存储帐户?
同样在Microsoft Azure>>下新>>数据+分析,我看到2个选项:hdinsight,处理大数据的数据湖分析。这两者有什么区别?两者看起来相似
HDInsight 微软基于云的大数据服务。 Apache Hadoop和其他流行的大数据解决方案。
Data Lake Analytics 大数据分析变得简单
答案 0 :(得分:3)
这里有很多问题,所以让我逐一回答。
什么是Blob存储与HDInsight群集? Blob存储是一种非常类似于HDFS的分布式文件存储,用于存储数据/视频/事物。 HDInsight群集是为在DFS(HDFS或Blob存储)上运行Map Reduce代码而创建的许多Hadoop虚拟机。拥有两个独立的服务允许您独立扩展,从长远来看可以节省资金。数据存储很便宜,但500节点VM群集可能会很快变得昂贵。能够杀死群集但保留数据是有帮助的。
为什么我不能将同一存储帐户连接到不同的群集? 您可以将多个群集指向同一存储帐户,但它是反模式。存储帐户具有数据和IO限制,如果您有多个群集在单个存储帐户上进行操作,则更有可能会遇到它们。此外,如果您拥有数据,则存储帐户只需花费$$,因此拥有多个不会增加成本。
什么是Azure Data Lake(ADL)和ADL存储? Azure数据湖是存储和计算的另一种选择。 ADL存储可以被认为是blob存储v2。您可以从blob存储中增加IO和文件大小的某些限制,同时仍然可以使用Hadoop进行计算。 ADL是计算的第二个选项,与Hadoop完全不同。您不必担心群集创建或群集。您编写查询,指定您想要的并行化数量,并返回数据。
<强>参考文献:强>