如何在数据仓库中建模登台数据

时间:2014-03-17 21:00:51

标签: database modeling data-warehouse

我们有大约200个文件定期从客户端进入我们的数据仓库。我正在尝试专门设计仓库的临时区域,我对在数据库中存储数据犹豫不决: -

  1. 它创建了大量冗余数据,因为我们无论如何都会将数据存储在维模型中并将文件存储在文件系统中
  2. 在分期中,我们不会为基本计数和精确检查等数据添加值
  3. 我正在考虑为每种文件类型创建外部表,并直接从文件中获取数据并在转换后加载到维度。无论如何努力解决这些问题:

    • 如果文件布局发生变化,虽然我们计划存储所有文件,但外部表一次只能读取一个布局,旧文件将无法使用。我们确实需要不时阅读历史数据,我们计划在每个文件类型的单个文件中聚合数据。
    • 我们如何从外部表中执行基本验证,如计数,数据类型,精度检查等,更重要的是我们如何计算出错误的记录数和哪些记录 - 理想情况下要将错误记录存储在不同的结构中

    感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

数据复制是数据仓库中必不可少的恶魔。使用您的临时表,但不要将所有历史数据保存在其中。截断表,并在批处理运行时加载每个新文件。通过这种方式,您可以轻松访问最近加载的"批量记录,用于调试出现的任何问题,以及进行数据质量工作。

如果没有事先警告数据仓库团队,文件布局不应更改。如果是,则存在业务通信问题,而不是数据仓库问题。