数据仓库或筒仓数据集市

时间:2019-04-24 17:23:11

标签: sql-server data-warehouse datamart

当前,我们有12个不同的数据库,其中7个是维度。 我们是一家基于知识的非营利组织,我们拥有基于患者所患疾病种类的数据库。

例如我们的数据库看起来像

  1. 艾滋病毒
  2. 丙型肝炎
  3. 脑膜炎

以此类推...

其中的每一个都将包含带有表的数据,例如:

患者

样本(血液样本)

位置

诊断

性别

提供商

我们只跟踪+ ve和-ve样本,所以不跟踪花费了多少钱。

现在,高层管理人员提出了一个问题,那就是我们应该从筒仓数据集市中构建一个数据仓库。

但是,业务用户从来没有问过一个问题,他们将在哪里需要来自两个不同数据库的数据。如果用户根本没有考虑过,我们还需要DW吗?

我想到的其他一些问题是:

  1. 每个数据集市的粒度如何?
  2. 哪个维度可以充当等量维度?
  3. ETL会如何流动?
  4. 在所有DM中实现单一版本的真相吗?

我只是在采取主动行动,以了解可以解决当前情况的解决方案。我们将为您提供任何帮助。

谢谢

2 个答案:

答案 0 :(得分:0)

我想在这里建立数据仓库的一个原因是,如果您要“存档”数据市场中不再需要的旧数据。

评论中已经提到的另一个原因是,是否需要进行企业范围的报告(可能是在由外部方进行审核的情况下)。您没有提到您的企业规模有多大,但是我给人的印象是它并不大,因此这可能不会成为您做出决定的推动因素。

答案 1 :(得分:0)

将所有数据集市保持在同一位置(数据仓库)的主要原因是能够在不同的数据集市中跟踪相同的维度。

在您的示例中,我至少看到了患者,提供者以及疾病/诊断的维度,这些维度可以由不同的数据集提供,并保持每个元素的单一版本。

您的数据集成例程将需要更新,以确保在所有维度上进行正确的更新。另外,您将需要建立数据仓库(如果您的数据很小,那么单节点的postgres服务器就足够了)。如果考虑到在所有数据集市中拥有一致的数据并能够交叉查询的便利性,这些费用是可以接受的,那么就去做吧。

但是,正如您所说,您在任何地方都看不到业务案例。因此,您不是要尝试修复未损坏的东西吗?也许将其保持不变,直到需要出现为止,然后评估此举的成本/收益比。