我正在收集不同ETL工具(Informatica,DataStage,Ab Initio)在可用性和性能方面的比较,我参与了 informatica 和 Ab Initio 以及通过网络帮助,我能够找到两者之间的关键要素和差异,但我无法在 DataStage Vs Ab Initio 上找到任何有用的东西,我是什么做得如下:
1. DS supports one type of parallelism where Ab-Initio supports 3(data,component,pipeline)
2. Debugging is a lot easir in Ab-Initio as it has error port on all components.
3. Ab Initio works well with masive volume than DS
任何人都可以帮助我收集更多的差异,建筑明智,表现明智或其他任何?
答案 0 :(得分:1)
我对Ab-Initio一无所知。但只能评论你的观点。
1)从技术上讲,DataStage支持两种类型的数据流:数据流水线(思考服务器作业)和并行分区(并行作业),具有重新分区功能和更多功能,您可以在一个作业中混合使用这两个概念。但是,与开发人员知道他们正在做什么相比,FAR的能力更强。通过使用对服务器/并行作业进行排序的定序器作业,可以非常容易地实现/复制组件并行性(在DS中对其工作原理进行假设)。有了它,您可以并行运行多个并行/服务器作业,每个作业都可以处理数据流。您甚至可以在多个实例中重复执行单个并行作业,以便一次可以在多个实例中运行一个作业设计。每个实例都运行不同的元数据。
因此,如果您使用这样的并行作业,不仅可以实现组件并行性,而且每个组件都以其自己的并行分区流的形式运行。这允许海量数据处理能力。见第三点。
2)现在有一些工具和方法可以调试单个作业:当然有作业运行日志详细说明作业中的每个阶段日志输出,有一个阶段可以查看(输出)数据样本到相同的日志,以便您可以在实际日志中查看数据值,还有您的IDE样式断点调试器,您在作业中设置断点,并且作业在运行期间停止在该断点处,您可以在那里评估您的记录,以及其他开发人员最佳实践,以便分阶段,更大,更大地完善您的工作,以降低难以解决的bug的可能性。您还可以禁用将日志汇总到摘要中,以便在作业日志中的每个阶段获取详细日志。每个阶段都输出它自己的日志。
3)信息服务器(特别是数据存储)已经进入大数据和云数据处理领域(大大从昨天刚刚发布的版本11.7.0.1开始)。它能够在内部和云端部署大量的数据(结构化和非结构化)。无论您的数据是在传统数据库中,是非结构化数据源,在Amazon S3中,还是在Hive中(在hadoop上),它都可以在大量并行流中进行压缩。将其连接和并行处理能力与处理引擎的线性可扩展性功能相结合。您可以将Information Server(即数据存储)配置为作为网格计算机运行。允许真正伟大的批量处理能力。我不确定Ab-Initio能做到这一点。从某种方面来说,如果可以的话:我觉得当他们将数据视图作为自己的工具与Ab-Initio或Informatica之类的东西进行比较时,人们会犯错误。 DataStage只是工具套件的一个组件,它是IBM Information Server(拥有许多工具)。当你以这种方式看待它时,我认为没有任何东西可以比较。
无需管理元数据和数据沿袭,并在业务中的众多工具,角色和功能之间共享它,以便为业务构建整体图片。例如,如果要签入或签出作业,请使用DataStage附带的名为Information Server Manager的单独工具(用于环境间部署,包部署,版本控制等)。它集成到独立版本控制系统中。如果您使用(非常)新的Flow Designer(基于Web的DataStage版本)。你实际上可以提交一个Git回购。
甚至没有涉及如何使用套件中其他工具的功能将DataStage作业公开为Web服务。或者使用DataStage和数据复制工具设置实时处理。
只是一些例子(很多)为什么将信息服务器本身用于ETL而不仅仅是DataStage是有益的。