统一数据API设计方法

时间:2015-07-12 02:33:53

标签: api reporting data-visualization data-warehouse

我正在尝试为我的公司构建统一的数据访问层。数据不是太大(大约250 GB),来自几个来源:

  1. 小型二进制文件(1-2kb),以每天约4,000的速度连续生成。这些包括大部分数据(~220 GB)
  2. 包含用户数据的MySQL数据库表。不经常更新(~20-30GB)
  3. 需要通过CRM API访问的CRM数据。
  4. 现在所有这些数据都以某种方式相关。用户希望聚合来自多个源的数据并进行查询。该解决方案应满足PM和外部客户等半技术人员的需求。

    问题:聚合所有数据并使其保持最新的最佳方法是什么?

    1. 一个数据仓库,它结合了所有内容,并允许聚合和统计分析(肯定需要的东西)。
    2. 在每个数据源之上的API,它根据需要转换数据,并允许API相互查询以生成有意义的聚合。这样做的缺点是缺乏适当的可视化工具。
    3. 别的什么???

1 个答案:

答案 0 :(得分:1)

简单试试吧! 从选项2中的一些基本查询开始。您将很快看到它是否有效。我对三种不同来源(二进制文件,关系数据库和API)的期望相当有限。 继续选项1 - 从定义目标数据模型(数据仓库表)开始,检查它们是否支持所需的查询。 之后决定源的刷新模式(流式传输,增量刷新,完全刷新)。 尽可能快地得到客户的反馈意见!