我想用必要的文献参考来定义数据仓库。
我在维基百科上发现wiki
DW是来自一个或多个不同来源的集成数据的中央存储库。他们将当前和历史数据存储在一个 用于创建分析报告的单个位置 企业中的工人。
是否暗示它始终是数据仓库下面的关系数据库,或者它可以是任何种类的存储库?
在An Architecture Framework for Complex Data Warehouses中,术语“数据仓库”也用于表示视频,图像等复杂数据,但是该术语在该论文中仍未定义。
答案 0 :(得分:2)
“数据仓库”主要是一种信息系统概念,它描述了(例如公司/业务)数据的集中且受信任的来源。
来自Wikipedia:“ DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的工人创建分析报告。”
我认为,Kimball集团是该主题最权威的资料来源之一,因为他们过去二十多年来一直在开发其框架和方法,并且还将该框架应用于不同的业务和技术领域,并共享结果和结果。
Kimball的The Data Warehouse Toolkit是该主题的参考书之一,它将数据仓库定义为“专门为查询和分析而构造的交易数据的副本”。
Bill Inmon也被认为是数据仓库的先驱之一,并且将数据仓库定义为“面向主题的,集成的,时变的和非易失性的数据收集,以支持管理层的决策过程“
数据仓库不必在关系数据库系统上实现,尽管在RDBMS或支持“可连接”表概念(例如Redshift,Presto,Hive)的不同数据库系统中实现Kimball的维度模型非常普遍)。
data lake的概念是对数据体系结构的最新补充,它完美地适应了复杂的数据类型,它通常是可以处理几乎任何类型的数据类型(例如S3,HDFS)的数据存储可以直接进行分析(例如,S3上的XML文件上的MapReduce),也可以处理成不同的格式或数据模型(如维模型)。
在您的评论之后编辑:
数据仓库和数据湖是服务于不同目的的独立系统,可以/应该是互补的,并且两者都是较大数据体系结构的一部分。作为一个概念,数据湖可以只是数据仓库中维度模型的另一个数据源(尽管数据湖的技术实现可以直接查询原始数据)。
您可以将Data Lake视为“着陆区”,其中几个系统以“复杂/原始格式”转储数据,例如来自客户支持电话的MP3文件,来自Web服务器的压缩日志。它的目的是为了历史目的而坐在那里,并进一步处理成易于分析/报告的格式,例如从MP3文件中提取文本。
数据仓库还聚合来自不同系统的数据,但是数据被建模为适合于报告的格式(例如维模型),其模型反映了业务/域的流程和交易,并且通常经过精心策划。
想象一下这种情况:如果您使用Web服务器日志记录对在线商店的访问,则可以将压缩后的日志(“交易数据”)保存在数据湖中,然后将数据处理为维度模型(例如{{ 3}}),即“专门为查询和分析而构建的交易数据副本”,因此业务用户可以轻松地在Excel或其他报告工具中对其进行浏览。