有人可以告诉我大数据与数据湖之间的异同吗?
在任何地方都找不到令人满意的答案。
答案 0 :(得分:1)
大数据是一个术语,使用方式非常不同,有人甚至可以称其为流行语。通常,它是数字技术digitization,industry 4.0以及与数字转换相关的许多主题的统称。
在不太笼统的解释中,大数据只是指复杂的大型数据集。然后,“大”一词是指三个维度(请参见Wikipedia on Big Data)
数据湖是一种存储大数据的方法。存储数据的其他可能性是,传统的数据库一方面也称为关系数据库管理系统(RDBMS),另一方面是数据仓库,例如,参见{{ 3}}
答案 1 :(得分:0)
我认为,我们无法比较和区分这两种术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。
另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数情况下,数据将存储在Hadoop FileSystem(HDFS)中,就像“大数据”下一样,其中涉及存储和其他一些处理技术。
答案 2 :(得分:0)
大数据和数据湖是两个不同的事物。 Data Lake是一个概念,您可以存储所有数据并使用不同的机制轻松访问。 Data Lake可以维护在s3或redshift或任何其他存储平台上。 大数据是用于处理大量数据的术语。通常,它与Hadoop,Spark等大数据解决方案相关。