我正在查看Microsoft文档:
https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview
我是Azure Data lake和HDInsight的新手。 URL中有一条声明告诉
"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
根据我最初的理解,Data lake store是一个可以存储任何类型数据的商店。我认为,HDInsight也有同样的事情。
我的问题是Azure Data湖和Azure HDInsight有什么区别?如果HDInsight可以用于文件存储或任何类型的存储,那么为什么要使用Data Lake?如果有人可以详细说明这一点,那就太棒了。感谢。
答案 0 :(得分:10)
想到Data Lake最简单的方法就是想到这个大型容器就像一个真正的湖泊,河流进入河流你永远不知道河流来自哪里(或者是什么“输入“河”。引入Azure Data Lake可以使开发人员,数据科学家和分析人员轻松存储大数据,以存储任何大小的数据。 它消除了摄取和存储所有数据的复杂性,同时加快了大数据的启动和运行速度。 Data Lake能够存储大量不同类型的数据(结构化数据,非结构化数据,日志文件,实时,图像等)并将它们混合在一起,以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具(如Hadoop,Cassandra,NoSQL DB等)。 Azure Data Lake包含三项服务:
Azure Data Lake Store就像基于云的文件服务或文件系统,其大小几乎无限制。我们可以在该商店中的数据之上运行服务。因此,您可以在HDInsight群集中使用Hadoop或Spark ,或者您可以使用Azure Data Lake分析服务,该服务是Azure Data Lake Store的补充。您可以使用的服务是运行有效查询存储在Azure Data Lake存储中的数据并生成输出结果的作业。
答案 1 :(得分:3)
Azure Data Lake Store就是一个数据存储。 HDInsight也可以在您启动的群集中执行此操作。但是,当您停止该群集时,数据也会消失。
客户通常使用Azure Data Lake Store或Azure存储来提供与用于处理数据的群集(计算)分开的永久存储。
盖
答案 2 :(得分:2)
HDInsight是分析服务,而Azure Data Lake Storage是存储服务。您很可能都需要拥有功能分析集群。
HDInsight提供群集,完全管理用于分析的开源软件包(Hadoop,Spark ...等),并且您将群集设置为使用支持HDFS API(Hadoop FileSystem)的Azure Data Lake Storage。云存储。
Azure Data Lake Storage Gen2是您应该开始研究的内容,它将一项服务融合了Azure存储和ADLS的优势。 -https://microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete
ADLS第2代文档-https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction
答案 3 :(得分:0)
简而言之,
Hdinsight是受托管的hadoop服务,以提供计算支持
ADL是一种托管存储服务,可提供大量存储支持 (您也可以选择使用Blob,但是Blob具有一些限制(例如,不支持通过hdinsight群集将文件流传输到存储设备)
如果您需要更多信息,请阅读以下内容:
Azure使用“分解的硬件方法”
您可以将HDinsight关联或假定为Hadoop群集,将Azure Data Lake(ADL)关联或假定为HDFS。但是他们超脱了。
Hdinsight使用adl://访问ADL,而hdinsight从不访问 将文件块存储在节点中(就像Hadoop一样),而是具有 到存储服务的映射。
如果终止群集,则ADL存储将与存储在其中的文件保持在一起。您可以使用另一种服务或工具(例如Azure数据块)直接访问存储,也可以在数据之上创建另一个hdinsight群集。
答案 4 :(得分:0)
Azure Data Lake Analytics在使用Azure Data Lake Store进行数据存储时为服务器提供了更少的计算,而在HDInsight中,我们需要根据处理要求为Compute Virtual Machine节点指定和设计。对于开发人员而言,在Azure Data Lake Analytics中使用较少服务器的计算可能是有利的,因为可以立即解决Analytics Job的扩展需求。