作为POC的一部分,我需要构建一个数据基础架构,可以从多个ERP源(SAP和Oracle)获取数据并将其提取到数据池或目标数据库。此外,我需要加入大量表格,并根据业务需求进行严格的列转换。考虑到长期解决方案和大量数据摄取(约10,000,000行),这将是一个明智的方法?最后,我将以视图的形式在我的应用程序中使用此数据,或者可能是REST调用。我是否需要考虑任何用于数据流任务的ETL工具?如果我正在考虑开源解决方案来实现这一目标,那会是什么方法呢?我是否需要考虑像Hadoop这样的大数据解决方案的实施?如何从头开始?
谢谢!
答案 0 :(得分:0)
在此之前被标记为“主要基于意见”,这是我的两分钱。
您可以使用Hadoop Ecosystem工具完全实现这一点,并将HDFS(Hadoop分布式文件系统)用作“容错”数据湖/数据仓库。
我需要构建一个数据基础架构,可以从多个ERP源(SAP和Oracle)获取数据并将其提取到数据池或目标数据库
我们有Sqoop可以将整个表从关系数据库移到HDFS上。它通常很容易使用,只有一些命令。
此外,我需要加入大量表格,并根据业务需求进行严格的列转换
然后,您可以继续将数据加载到Hive,这是一个建立在HDFS之上的数据仓库系统。它在查询和加载数据方面与RDBMS非常相似,并且具有一组良好的转换。
或者如果你想提高标准,你可以在Hive中创建这些表,然后将这些表加载到Spark,在那里执行转换(和操作)并将数据加载回Hive(或任何其他使用Spark SQL的数据库。
这些都是开源的,并与Cloudera CDH一起打包进行测试。