大数据与数据湖之间的比较,异同

时间:2019-01-03 10:36:14

标签: bigdata data-science data-lake

有人可以告诉我大数据与数据湖之间的异同吗?

在任何地方都找不到令人满意的答案。

3 个答案:

答案 0 :(得分:1)

大数据是一个术语,使用方式非常不同,有人甚至可以称其为流行语。通常,它是数字技术digitizationindustry 4.0以及与数字转换相关的许多主题的统称。

在不太笼统的解释中,大数据只是指复杂的大型数据集。然后,“大”一词是指三个维度(请参见Wikipedia on Big Data

  1. 容量,即数据集的大小
  2. 产生数据量的
  3. 速度
  4. 各种数据类型和来源

数据湖是一种存储大数据的方法。存储数据的其他可能性是,传统的数据库一方面也称为关系数据库管理系统(RDBMS),另一方面是数据仓库,例如,参见{{ 3}}

答案 1 :(得分:0)

我认为,我们无法比较和区分这两种术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。

另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数情况下,数据将存储在Hadoop FileSystem(HDFS)中,就像“大数据”下一样,其中涉及存储和其他一些处理技术。

答案 2 :(得分:0)

大数据和数据湖是两个不同的事物。 Data Lake是一个概念,您可以存储所有数据并使用不同的机制轻松访问。 Data Lake可以维护在s3或redshift或任何其他存储平台上。 大数据是用于处理大量数据的术语。通常,它与Hadoop,Spark等大数据解决方案相关。