ETL工具迁移:并行运行的最佳实践

时间:2017-01-03 09:34:15

标签: parallel-processing etl data-warehouse informatica informatica-powercenter

我是ETL迁移的新手。我曾与Talend合作,但尚未面临将大型ETL项目从一个工具迁移到另一个工具(IBM Data Manager到Informatica PowerCenter或Informatica Developer)的任务。

我正在寻找将工作从一个工具迁移到另一个工具的一般指导,当然还有我的具体情况。

我会更清楚:

数据库源和目标将是相同的,我必须迁移的是ETL部分本身。

该方法将按照此博客的建议进行并行运行:

Parallel Run

在我的情况下,我不需要迁移所有DWH而只迁移ETL,因为旧软件将成为旧版软件,而新软件将来自另一个供应商(幸运的是,它们都可以导出XML)。

我正在寻找并行运行的实用approch,实际上我被建议复制原始数据库模式中的Sources和Targes表,但它并不是我最好的方式(即使不是实用的schema有很多表。)

DWH我当然在Oracle中有几个DBS实例,一些在SQL Server,一个测试服务器和一个Production,以及每个,一个Staging,Storage和一个Data Mart区域。

从这个相关问题及其答案中,我正在考虑为每个项目复制每个模式。

Staging in ETL: Best Practices

希望有guidlines参考,但我的具体情况是从IBM Data Manager迁移到Informatica PowerCenter

1 个答案:

答案 0 :(得分:1)

该方法取决于各种标准和个人偏好。无论哪种方式,您都需要复制部件或所有源系统和目标系统。在一个极端,您可以使用整个系统的两个实例。如果您有复杂的上游流程作为测试的一部分,或者您拥有大量的表和流程,并且您拥有复制系统的带宽和资源,那么这种方法可能是最佳的。

另一方面,如果在ETL工具本身内发生任何复杂的过程,或者您只是加载表并需要检查它们是否正确加载,那么制作表的副本并将新旧工具指向表副本可能是要走的路。这种方法非常简单,易于设置。

请记住,此论坛并非旨在取代博客和有关这些技术的深入技术文章。