应用错误收集

我们将不同的数据集合到不同的系统中，如Hadoop，Cassandra，MongoDB。但我们的分析团队希望从不同系统获取拼接数据。例如，具有人口统计的客户信息将在一个系统中，他们的交易将在另一个系统中。 Analytic应该能够查询从美国用户获取的数据是什么是交易量。我们需要开发一个应用程序来提供与不同系统交互的简便方法。什么是最好的方法？

另一项要求：如果我们想在像MongoDB这样的系统中提供他们的自定义工作区，他们可以轻松地使用它。根据需要将数据从一个系统提取到另一个系统的最佳策略是什么？

用于解决此类问题的任何指针或通用架构都将非常有用。

我在这里看到两个问题：

如何将来自不同系统的数据整合到一个系统中？
如何在Mongo中创建一些数据供人们试用？

我们去...... =）

我会选择一个系统并将其作为合并目标。换句话说，在Hadoop，Cassandra和MongoDB之间，你的团队最经验的是哪一个？你最容易查询哪一个？你设置哪一个能够很好地扩展？

每个人在规模，存储和可查询性方面都有优缺点。

我会选择一个，然后将所有数据泵送到该系统。在最近的一份工作中，最终成为了MongoDB。将数据移动到Mongo很容易，它是迄今为止最好的查询语言。它也有一个很棒的社区，设置节点比Hadoop等更容易。
解决了（1）后，您可以修剪您的数据集并创建一个按比例缩小的沙箱，供人们运行即席查询。那将是我的方法。您不希望支持整个数据集，因为它可能过于昂贵和复杂。

如果您在关系数据库中执行此操作，我会说只需运行

select top 1000 * from [table]

查询每个表并使用该数据供人们使用。

不同系统之间的大数据传输

1 个答案: