如果您要检查数据湖和大数据之间是否存在真正的区别,我试图理解所有这些信息,就像它们都像一个大存储库一样,它将存储信息直到必要时才保存,所以,什么时候可以说我们是使用大数据还是数据湖?
预先感谢
答案 0 :(得分:2)
我不能说我曾经遇到过“大存储库”一词,但是要回答最初的问题,不,数据湖和大数据并不相同,尽管公平地说,它们都被扔了很多定义会因您要求的人而异,但我会尝试一下:
用于描述围绕某种程度上太大或太复杂而无法通过传统方式方便地存储和/或处理的数据的技术生态系统,以及在某种程度上涉及处理该行业的技术。
有时候这可能是纯粹的数据量问题:一旦进入100 TB或PB级,您的老式RDBMS数据库就会被淘汰,我们被迫将数据分散到许多磁盘上,不只是一个大的。在这些情况下,我们将希望并行化工作负载,从而实现MPP数据库,Hadoop生态系统和基于DAG的处理。
但是,仅凭销量并不能说明全部故事。大数据的流行定义是所谓的“ 4 Vs”:体积,种类,速度和准确性。简而言之:
卷-如上所述,是指由数据大小引起的困难
品种-指处理不同类型数据的内在复杂性;您的某些数据将是结构化的(例如SQL数据表),而其他数据可能是半结构化的(XML文档)或非结构化的(原始图像文件),并且处理这种多样性的技术并非易事
< / li>速度-指可以生成新数据的速度;当收集诸如IoT数据,Web流量,财务交易,数据库更改或实时发生的任何其他事情的实时事件时,数据的“速度”流入(在许多情况下是)系统中,可以轻松超越传统数据库技术的功能,从而需要某种可伸缩的消息总线(Kafka)以及可能的复杂事件处理框架(例如Spark Streaming或Apache Flink)
准确性-最终的“ V”是指处理数据的复杂性,这些数据通常来自您控制之外的来源,并且可能包含无效,错误的数据,恶意,格式错误或以上所有内容。这增加了对数据验证,数据质量检查,数据规范化等的需求。
在此定义中,“大数据”是由于4 V相关的特殊挑战而不适用于传统数据库技术的数据。而“大数据工具”是专门设计用来应对这些挑战的工具。
相反,Data Lake通常被用来描述某种类型的文件或Blob存储层,该层允许根据大数据架构的需要存储几乎无限量的结构化和非结构化数据。
一些公司将使用“ Data Lake”一词,不仅意味着存储层,而且还包括所有相关工具,从获取,ETL,争用,机器学习,分析,一直到数据仓库堆栈甚至BI和可视化工具。但是,作为一个大数据架构师,我发现使用术语混淆,宁愿将数据湖及其周围的工具作为具有独立功能和职责的独立组件来讨论。因此,Data Lake的责任是对您可能希望静态存储的任何类型的数据进行中央,高耐用性的存储。
在大多数情况下,“数据湖”一词是Pentaho的创始人兼首席技术官James Dixon提出的,他对此进行了描述:
“如果您将数据集市视为瓶装水的存储(经过清洗,包装和构造以便于饮用),则数据湖是处于更自然状态的大量水体。数据湖的内容从源头流入整个湖中,并且该湖的各种用户可以来检查,潜水或取样。”
Amazon Web Services在其页面'What Is A Data Lake'上对其进行了定义:
数据湖是一个集中式存储库,可让您以任何规模存储所有结构化和非结构化数据。您可以按原样存储数据,而无需先构建数据结构并运行不同类型的分析-从仪表板和可视化到大数据处理,实时分析和机器学习,以指导更好的决策。
来自Wikipedia:
数据湖是以自然格式存储的数据系统或存储库,通常是对象blob或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告,可视化,分析和机器学习等任务的转换数据。
最后是Gartner:
数据湖是除原始数据源之外的各种数据资产的存储实例的集合。这些资产存储在源格式的近似精确甚至精确的副本中。数据湖的目的是仅向最熟练的分析师提供未精炼的数据视图,以帮助他们探索其数据提炼和分析技术,而不受传统分析中可能存在的任何记录系统的损害数据存储区(例如数据集市或数据仓库)。
在本地群集上,数据湖通常是指群集中的主存储,在分布式文件系统中,通常是HDFS,尽管存在其他文件系统,例如Google上使用的GFS或MapR上的MapR文件系统集群。
在云中,数据湖通常不存储在群集中,因为保持群集始终保持运行成本不高,而是在持久性云存储(例如Amazon S3,Azure ADLS或Google Cloud Storage)上保持成本效益。然后可以按需启动计算集群,并将其无缝连接到云存储以运行转换,机器学习,分析作业等。
希望对您有所帮助,并祝您一切顺利,
答案 1 :(得分:1)
大数据只是封装现在正在生成的大量数据的术语。它不涉及任何特定或特定数量的数据。
我的数据湖=读取时的架构。没有相关联架构的非结构化数据并转储到对象存储或类似数据中。
答案 2 :(得分:0)
大数据和数据湖是两个相互关联的术语,但含义完全不同,这是人们经常在这两个术语之间感到困惑的主要原因。因此,让我们简要了解两者之间的区别。
大数据 顾名思义,大数据就是大小庞大的数据。 PB级及更高级别的数据被视为大数据。不仅大小,还有更多定义大数据的参数。生成此数据的源,数据的不同格式以及生成速度,所有这些因素结合在一起就定义了大数据。 简单地说,大数据就是海量数据。 就是这样。
数据湖 数据湖是大数据的存储库。它存储从不同来源生成的所有类型的数据,即结构化,非结构化和半结构化的数据。它以其原始格式存储数据。 数据湖不同于数据仓库。数据仓库以结构良好的形式存储数据。数据湖中存在的数据将来可能会使用,也可能不会使用,但是数据仓库中的数据仅供使用,因为所有不相关的数据都已被处理掉。
大数据是海量数据,数据湖是其仓库。
我希望这会有所帮助。