什么是数据仓库,它可以应用于复杂数据吗?

时间:2018-12-05 14:17:16

标签: bigdata data-modeling data-warehouse data-lake

我想用必要的文献参考来定义数据仓库。

我在维基百科上发现wiki

  

DW是来自一个或多个不同来源的集成数据的中央存储库。他们将当前和历史数据存储在一个   用于创建分析报告的单个位置   企业中的工人。

是否暗示它始终是数据仓库下面的关系数据库,或者它可以是任何种类的存储库?

An Architecture Framework for Complex Data Warehouses中,术语“数据仓库”也用于表示视频,图像等复杂数据,但是该术语在该论文中仍未定义。

1 个答案:

答案 0 :(得分:2)

“数据仓库”主要是一种信息系统概念,它描述了(例如公司/业务)数据的集中且受信任的来源。

来自Wikipedia:“ DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的工人创建分析报告。”

我认为,Kimball集团是该主题最权威的资料来源之一,因为他们过去二十多年来一直在开发其框架和方法,并且还将该框架应用于不同的业务和技术领域,并共享结果和结果。

Kimball的The Data Warehouse Toolkit是该主题的参考书之一,它将数据仓库定义为“专门为查询和分析而构造的交易数据的副本”。

Bill Inmon也被认为是数据仓库的先驱之一,并且将数据仓库定义为“面向主题的,集成的,时变的和非易失性的数据收集,以支持管理层的决策过程“

数据仓库不必在关系数据库系统上实现,尽管在RDBMS或支持“可连接”表概念(例如Redshift,Presto,Hive)的不同数据库系统中实现Kimball的维度模型非常普遍)。

data lake的概念是对数据体系结构的最新补充,它完美地适应了复杂的数据类型,它通常是可以处理几乎任何类型的数据类型(例如S3,HDFS)的数据存储可以直接进行分析(例如,S3上的XML文件上的MapReduce),也可以处理成不同的格式或数据模型(如维模型)。

在您的评论之后

编辑

数据仓库和数据湖是服务于不同目的的独立系统,可以/应该是互补的,并且两者都是较大数据体系结构的一部分。作为一个概念,数据湖可以只是数据仓库中维度模型的另一个数据源(尽管数据湖的技术实现可以直接查询原始数据)。

您可以将Data Lake视为“着陆区”,其中几个系统以“复杂/原始格式”转储数据,例如来自客户支持电话的MP3文件,来自Web服务器的压缩日志。它的目的是为了历史目的而坐在那里,并进一步处理成易于分析/报告的格式,例如从MP3文件中提取文本。

数据仓库还聚合来自不同系统的数据,但是数据被建模为适合于报告的格式(例如维模型),其模型反映了业务/域的流程和交易,并且通常经过精心策划。

想象一下这种情况:如果您使用Web服务器日志记录对在线商店的访问,则可以将压缩后的日志(“交易数据”)保存在数据湖中,然后将数据处理为维度模型(例如{{ 3}}),即“专门为查询和分析而构建的交易数据副本”,因此业务用户可以轻松地在Excel或其他报告工具中对其进行浏览。