大数据或仓库的转型

时间:2018-11-25 00:34:12

标签: bigdata data-warehouse warehouse data-transform

我是一名程序员,对大数据世界还是陌生的,一直在尝试了解所有组件如何组合在一起。

如果我们实施大数据+仓库解决方案,并且必须在两个平台上都进行转换,以保持仓库精简,那么我们如何区分在每个平台上进行的转换类型。理想情况下,我希望在大数据平台上进行所有转换,但是我知道,数据仓库在某些方面比大数据更强大,并且在开发方面会更快。在两个平台上制定解决方案的最佳方法是什么。

我一直在思考,跨表/源的任何事情都应该在大数据平台上完成。下面的列表是否可以作为一个分离关注点的最佳实践的一个良好的开端。

大数据平台上的变革

  1. 清洁
  2. 重复数据删除
  3. 格式修订
  4. 关键重组
  5. 数据验证
  6. 映射
  7. 旋转

在仓库平台上进行的转换:仅在单一来源上

  1. 推导
  2. 过滤
  3. 加入
  4. 分裂
  5. 去标准化

哪个平台最适合维度和指标?

我知道不会有一个单一的解决方案,但是想知道什么是最佳实践,以及不同组织中的人员如何管理?如果我的理解是错误的,您能指出我正确的方向吗?

0 个答案:

没有答案