数据仓库可以包括数据湖吗?

时间:2018-12-11 15:41:09

标签: data-modeling data-warehouse data-lake

我想更详细地了解数据仓库和数据湖。

在我看来,该主题有不同的信息。 Inmon将数据仓库定义为

  

面向主题的,集成的,时变的和非易失性的数据收集,以支持管理层的决策过程

现在,我了解到这只是架构的一种形式,并不意味着任何技术。这意味着基础数据可以是任何结构,也可以是S3对象存储。此外,Waas et al. in On-Demand ELT Architecture for Right-Time BI: Extending the Vision提出了一种具有集成数据ELT流程的数据仓库。

关于数据湖,我发现了以下定义

  

可扩展的存储库,以其原始格式(按原样)保存大量原始数据,直到需要它为止,再加上可以摄取数据而不会损害数据结构的处理系统(引擎)

取自Data lake governance

现在数据仓库可以成为更严格的数据湖吗?有人争论说数据仓库必须使用ETL,但是根据Inmon的定义,对数据转换没有任何限制吗?如果数据集成可以是ELT,那么转换就很灵活,例如它可以轻松扩展。数据仓库看起来非常像数据湖。

我的假设是正确的还是从偏斜的角度来看。

1 个答案:

答案 0 :(得分:4)

数据仓库和数据湖是服务于不同目的的独立系统,可以/应该是互补的,并且两者都是较大数据体系结构的一部分。作为一个概念,数据湖可以只是数据仓库中维度模型的另一个数据源(尽管数据湖的技术实现可以直接查询原始数据)。

您可以将Data Lake视为“着陆区”,其中几个系统以“复杂/原始格式”转储数据,例如来自客户支持电话的MP3文件,来自Web服务器的压缩日志。它的目的是为了历史目的而坐在那里,并进一步处理成易于分析/报告的格式,例如从MP3文件中提取文本。

数据仓库还聚合来自不同系统的数据,但是数据被建模为适合于报告的格式(例如维模型),其模型反映了业务/域的流程和交易,并且通常经过精心策划。

想象一下这种情况:如果您使用Web服务器日志记录对在线商店的访问,则可以将压缩后的日志(“交易数据”)保存在数据湖中,然后将数据处理为维度模型(例如{{ 3}}),即“专门为查询和分析而构建的交易数据副本”,因此业务用户可以轻松地在Excel或其他报告工具中对其进行浏览。