什么是数据仓库?

时间:2010-06-22 23:33:05

标签: database data-structures data-warehouse

客户问我“数据仓库”一词的含义是什么。

我想到了ETL,数据模型的细节,与NoSQL,云,“正常”DBMS,MDM(主数据管理)等的差异,但无法用几句话向他描述这个术语。 (事实上​​,我做了一些谈话,让他没有被照亮。)

如何在1-3(或更多)句子中描述“数据仓库”?

12 个答案:

答案 0 :(得分:18)

对于非技术人员,最好将其描述为“存储在专用计算机系统中的大量数据。数据通常与某些特定域相关,整个系统设计为快速并针对某些特殊情况进行优化存储在数据仓库中的数据主要用于分析或决策过程。“

不确定这是否足够:)互联网上有很多关于这个主题的引用但是如果有人问我快速定义,我会使用与我上面写的类似的东西。

答案 1 :(得分:6)

来自wiki

  

数据仓库是一个存储库   组织的电子存储   旨在促进报告的数据   和分析1

     

这个数据仓库的定义   专注于数据存储。然而   意味着检索和分析数据   提取,转换和加载数据,以及   管理数据字典也是   被视为a的基本组成部分   数据仓库系统。许多   引用数据仓库使用   更广泛的背景。因此,一个   扩展数据定义   仓储包括业务   智力工具,提取工具,   转换并将数据加载到   存储库,以及管理和工具   检索元数据。

答案 2 :(得分:5)

至少从理论上讲,数据仓库的想法是提供来自各种现有系统的数据的统一视图,通常认为重写直接合并数据是不切实际的。因此,数据仓库从那些现有系统收集数据,并提供(至少是幻觉)所有数据在一个地方,因此可以以一种方式查询。

主要目的是(通常)允许来自现有系统的数据之间的关联。例如,您可以比较销售人员与客户X(存储在一个系统中)花费的时间与购买的客户X的数量(存储在第二个系统中)以及客户X对他们接收的内容的满意程度(存储,当然,在第三个系统中。)

从实践的角度来看,它通常意味着客户的想法介于定义不明确和完全疯狂之间。成本和时间表几乎不可能被猜测,并且显然不可能做出可靠的估计。提供他真正想要的东西几乎肯定是不可能的,找出一些有用的东西是需要花费足够的时间和工作,你的第一步就是让你所做的声音足够技术化他不会有一颗心当他了解成本和/或时间表时会发动攻击。

答案 3 :(得分:4)

数据仓库试图使不同的系统看起来是同质的,无论底层技术或存储机制如何。

您可以了解数据仓库的“原因”,但这是一个不同的问题。

答案 4 :(得分:4)

哇,我正在做一些研究。这是我遇到的一个非常好的答案:

  

数据仓库......是数据交易的复制版本,特别是结构化和构建用于查询,分析和报告。在一个非常简单的定义中,术语数据仓库是指系统地收集以有组织的方式存储的数据的过程,以便可以访问和检索这些数据以供将来报告和文档分析

来自Richard Martin的“Data Warehouse 100 Success Secrets

答案 5 :(得分:3)

数据仓库是一个数据库,数据加载和报告系统,旨在聚合来自多个来源的数据,并以易于提取和报告的方式呈现。从实际角度来看,成功的数据仓库项目的好处是:

  • 统计和财务报告 - 数据仓库可以轻松地汇总数据并从中获取有用的分析,特别是在您拥有65537或更多行数据的情况下。

  • 数据安全 - 数据表现良好,并没有年轻球员的陷阱。特殊报告系统可供缺乏经验的用户使用,在报告中产生无效结果的风险较低,而无需注意。

  • 透明度 - 企业可以查看和识别底层系统中的数据问题。数据仓库可以成为推动数据质量工作的好工具。

  • 赋权 - 最终用户报告工具应该支持大多数管理信息要求,只需要一个最小的设置,需要技术专家制定定制报告。

答案 6 :(得分:3)

... KISS

数据仓库是与给定组织及其活动相关的数据的存储库。该数据将允许分析和报告组织在各种相关方面的绩效,例如时间,结构,活动流。可以组合这些维度,并通过相关层次结构汇总结果。

答案 7 :(得分:1)

从实际角度来看:企业变化,环境变化,昨天的重要问题可能不是今天,很可能不会是明天。在处理CEO级别的问题时尤其如此。

如果您无法预见问题是什么,您唯一的选择就是提供快速回答任何问题的方法。这就是数据仓库尝试或声称要做的事情。数据来自何处以及来自多少不同系统的数据并不重要。

许多数据仓库在“快速回答任何问题”时失败,因为他们的技术要求您“内外”(制作多维数据集)转换可用的原始数据以确保“快速”。定义这些立方体限制了可以回答的各种问题。

答案 8 :(得分:1)

数据仓库是一个关系数据库,专为查询和业务分析而不是事务处理而设计。它包含从事务数据派生的历史数据。业务分析师使用此历史数据详细了解业务。

数据仓库应具有以下特征:

  1. 主题导向:
  2. 数据仓库有助于分析数据。例如,要了解公司的销售情况,数据仓库需要建立销售数据。使用这个数据仓库,我们可以找到去年的销售情况。这种按主题(销售)定义数据仓库的能力使其成为面向主题的。

    1. 综合:
    2. 从不同来源获取数据并将其置于一致的格式。这包括解决措施单位,命名冲突等。

      1. 非挥发性:
      2. 数据进入数据仓库后,不应更新数据。

        1. 时间变种:
        2. 要分析业务,分析师需要大量数据。因此,数据仓库应包含历史数据。

答案 9 :(得分:1)

数据仓库是一项综合技术,可为企业中的关键人员提供对企业中任何级别的所需信息的访问权限。这是一个企业范围的框架,允许管理所有企业信息。

数据仓库是信息的中央存储库,可以对其进行分析以做出更明智的决策。数据通常以常规节奏从事务处理系统,关系数据库和其他来源流入数据仓库。商业分析师,数据科学家和决策者通过商业智能(BI)工具,SQL客户端和其他分析应用程序访问数据。

enter image description here

答案 10 :(得分:0)

据我所知,数据仓库只是一个专为查询和分析而设计的关系数据库。它通常包含从事务数据派生的历史数据。

根据William Inmon,数据仓库的定义是:

数据仓库是一个面向主题,集成,非易失性和时变的数据集合,以支持管理层的决策。

如果我们理性思考并且可以从here

理解,那么上述定义是合乎逻辑且完美的

答案 11 :(得分:-3)

简单来说......

数据仓库是一种控制真实仓库中物品的方法,其中包含控制位置,库存,移动,报告,审核以及“真实仓库”中有关“真实物品”的任何信息。

我希望它更简单。