不同系统之间的大数据传输

时间:2013-07-03 14:28:04

标签: hadoop bigdata

我们将不同的数据集合到不同的系统中,如Hadoop,Cassandra,MongoDB。但我们的分析团队希望从不同系统获取拼接数据。例如,具有人口统计的客户信息将在一个系统中,他们的交易将在另一个系统中。 Analytic应该能够查询从美国用户获取的数据是什么是交易量。我们需要开发一个应用程序来提供与不同系统交互的简便方法。什么是最好的方法?

另一项要求: 如果我们想在像MongoDB这样的系统中提供他们的自定义工作区,他们可以轻松地使用它。根据需要将数据从一个系统提取到另一个系统的最佳策略是什么?

用于解决此类问题的任何指针或通用架构都将非常有用。

1 个答案:

答案 0 :(得分:0)

我在这里看到两个问题:

  1. 如何将来自不同系统的数据整合到一个系统中?
  2. 如何在Mongo中创建一些数据供人们试用?
  3. 我们去...... =)

    1. 我会选择一个系统并将其作为合并目标。换句话说,在Hadoop,Cassandra和MongoDB之间,你的团队最经验的是哪一个?你最容易查询哪一个?你设置哪一个能够很好地扩展?

      每个人在规模,存储和可查询性方面都有优缺点。

      我会选择一个,然后将所有数据泵送到该系统。在最近的一份工作中,最终成为了MongoDB。将数据移动到Mongo很容易,它是迄今为止最好的查询语言。它也有一个很棒的社区,设置节点比Hadoop等更容易。

    2. 解决了(1)后,您可以修剪您的数据集并创建一个按比例缩小的沙箱,供人们运行即席查询。那将是我的方法。您不希望支持整个数据集,因为它可能过于昂贵和复杂。

      如果您在关系数据库中执行此操作,我会说只需运行

      select top 1000 * from [table]

      查询每个表并使用该数据供人们使用。