应用错误收集

作为POC的一部分，我需要构建一个数据基础架构，可以从多个ERP源（SAP和Oracle）获取数据并将其提取到数据池或目标数据库。此外，我需要加入大量表格，并根据业务需求进行严格的列转换。考虑到长期解决方案和大量数据摄取（约10,000,000行），这将是一个明智的方法？最后，我将以视图的形式在我的应用程序中使用此数据，或者可能是REST调用。我是否需要考虑任何用于数据流任务的ETL工具？如果我正在考虑开源解决方案来实现这一目标，那会是什么方法呢？我是否需要考虑像Hadoop这样的大数据解决方案的实施？如何从头开始？

谢谢！

在此之前被标记为“主要基于意见”，这是我的两分钱。

您可以使用Hadoop Ecosystem工具完全实现这一点，并将HDFS（Hadoop分布式文件系统）用作“容错”数据湖/数据仓库。

我需要构建一个数据基础架构，可以从多个ERP源（SAP和Oracle）获取数据并将其提取到数据池或目标数据库

我们有Sqoop可以将整个表从关系数据库移到HDFS上。它通常很容易使用，只有一些命令。

此外，我需要加入大量表格，并根据业务需求进行严格的列转换

然后，您可以继续将数据加载到Hive，这是一个建立在HDFS之上的数据仓库系统。它在查询和加载数据方面与RDBMS非常相似，并且具有一组良好的转换。

或者如果你想提高标准，你可以在Hive中创建这些表，然后将这些表加载到Spark，在那里执行转换（和操作）并将数据加载回Hive（或任何其他使用Spark SQL的数据库。

这些都是开源的，并与Cloudera CDH一起打包进行测试。

数据基础设施实施 - 最佳方法

1 个答案: