我们将不同的数据集合到不同的系统中,如Hadoop,Cassandra,MongoDB。但我们的分析团队希望从不同系统获取拼接数据。例如,具有人口统计的客户信息将在一个系统中,他们的交易将在另一个系统中。 Analytic应该能够查询从美国用户获取的数据是什么是交易量。我们需要开发一个应用程序来提供与不同系统交互的简便方法。什么是最好的方法?
另一项要求: 如果我们想在像MongoDB这样的系统中提供他们的自定义工作区,他们可以轻松地使用它。根据需要将数据从一个系统提取到另一个系统的最佳策略是什么?
用于解决此类问题的任何指针或通用架构都将非常有用。
答案 0 :(得分:0)
我在这里看到两个问题:
我们去...... =)
我会选择一个系统并将其作为合并目标。换句话说,在Hadoop,Cassandra和MongoDB之间,你的团队最经验的是哪一个?你最容易查询哪一个?你设置哪一个能够很好地扩展?
每个人在规模,存储和可查询性方面都有优缺点。
我会选择一个,然后将所有数据泵送到该系统。在最近的一份工作中,最终成为了MongoDB。将数据移动到Mongo很容易,它是迄今为止最好的查询语言。它也有一个很棒的社区,设置节点比Hadoop等更容易。
解决了(1)后,您可以修剪您的数据集并创建一个按比例缩小的沙箱,供人们运行即席查询。那将是我的方法。您不希望支持整个数据集,因为它可能过于昂贵和复杂。
如果您在关系数据库中执行此操作,我会说只需运行
select top 1000 * from [table]
查询每个表并使用该数据供人们使用。