Hadoop与Data Lake合作

时间:2016-03-14 12:24:50

标签: hadoop data-warehouse data-lake

我听到一个新词 Data Lake 。我用谷歌搜索了那个

  

数据湖是一个大型存储库和处理引擎。数据湖为任何类型的数据提供大容量存储,巨大的处理能力以及处理几乎无限的并发任务或工作的能力"

     

术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下,首先将组织的数据加载到Hadoop平台中,然后将业务分析和数据挖掘工具应用于它驻留在商用计算机的Hadoop集群节点上的数据。

Hadoop也做了同样的事情。我们有用于存储的HDFS和用于计算的MapReduce。 我对Hadoop和Data湖有点困惑。两者之间有什么区别。如果它们是相同的,为什么这个术语出现。或者如何定义数据湖。

6 个答案:

答案 0 :(得分:13)

Data Lake是一个抽象的“想法”。 Hadoop是特定的技术/软件。您可以使用hadoop或使用不同的工具来实现数据湖。

答案 1 :(得分:4)

Data Lake是一种在系统中存储数据的方法,可以方便地对变体模式和结构形式(通常是对象blob或文件)中的数据进行整理。

数据湖的概念与Apache Hadoop及其开源项目生态系统密切相关。所有关于数据湖的讨论都很快就会描述如何利用Apache Hadoop生态系统的强大功能构建数据湖。它变得流行,因为它提供了一种经济高效且技术上可行的方法来应对大数据挑战。组织 发现数据湖是他们现有数据架构的演变。

Following whitepaper将成为使用Hadoop构建数据湖的优秀示例。

答案 2 :(得分:2)

想想Data Lake最简单的方法就是想到这个大型集装箱就像一个真正的湖泊,河流进入河流,你永远不知道河流的来源(或者是什么"类型"河)。

Data Lake 能够存储大量不同类型的数据(结构化数据,非结构化数据,日志文件,实时,图像等)并将它们混合在一起,以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具(如Hadoop ,Cassandra,NoSQL DB等)。

如果我们可以分析它,那么我们可能会创建一大堆数据。我们可以使用云来获取数据,在商店中将它们组合在一起并进行分析。在Azure中,我们有 Azure Data Lake Store 。我们可以获取所有这些数据,然后我们可以将其存储在Azure Data Lake Store中。 Azure Data Lake Store就像基于云的文件服务或文件系统,其大小几乎无限制。

我们可以在该商店中的数据之上运行服务。因此,您可以在HDInsight群集中使用Hadoop或Spark,或者您可以使用Azure Data Lake分析服务,该服务是Azure Data Lake Store的补充。您可以使用的服务是运行有效查询存储在Azure Data Lake存储中的数据并生成输出结果的作业。

Azure Data Lake Store是我们可以存储我们想要分析的所有数据的地方。 Azure Data Lake Analytics作为一项服务,我们可以运行查询该数据的作业,以生成某种分析输出。 Hadoop是特定技术 /(开源分布式数据处理集群技术)。您可以使用hadoop或使用不同的工具来实现数据湖。

答案 3 :(得分:1)

我说这个问题太像了。

“Oracle vs Database”。

数据湖是在系统或存储库中存储数据的方法。 Hadoop引用了thecnology,Hadoop是一个用于存储数据的开源软件框架。 因此,数据湖的一个示例是Hadoop中使用的分布式文件系统。

答案 4 :(得分:1)

您已经将概念(数据湖)与可用于实现它们的框架(Hadoop)相混淆,但是这是可以理解的,因为这些术语彼此之间联系紧密。

Hadoop通常与数据湖相关联,因为一些第一个数据湖是使用本地Hadoop构建的。但是,数据湖只是一种架构设计模式-可以使用任何类型的可扩展对象存储(例如Azure数据湖或AWS S3)在Hadoop外部构建数据湖。

This site在概述数据湖方面做得很好,其中包括一个history of data lakes,与其他实现一起讨论了Hadoop。这是另一个article,也解决了这些术语如何捆绑在一起的问题。

答案 5 :(得分:0)

要处理数据湖,除了我们的数据量外,我们可以使用支持不同类型数据的任何技术。在这种情况下,Apache Hadoop具有此功能,因此我们可以使用hadoop来实现数据湖。但是hadoop绝不是数据湖,因为数据湖是一个包含很多实现的大概念。在开发术语中,我们说“数据湖是一个规范,包含很多实现,例如hadoop,microsoft azure,aws等”