我正在尝试为我的公司构建统一的数据访问层。数据不是太大(大约250 GB),来自几个来源:
现在所有这些数据都以某种方式相关。用户希望聚合来自多个源的数据并进行查询。该解决方案应满足PM和外部客户等半技术人员的需求。
问题:聚合所有数据并使其保持最新的最佳方法是什么?
答案 0 :(得分:1)
简单试试吧! 从选项2中的一些基本查询开始。您将很快看到它是否有效。我对三种不同来源(二进制文件,关系数据库和API)的期望相当有限。 继续选项1 - 从定义目标数据模型(数据仓库表)开始,检查它们是否支持所需的查询。 之后决定源的刷新模式(流式传输,增量刷新,完全刷新)。 尽可能快地得到客户的反馈意见!