首先是一些背景;我们正在开发一个数据仓库,并对我们的ETL流程使用哪些工具进行一些研究。团队非常以开发人员为中心,每个人都熟悉C#。到目前为止,我已经看过RhinoETL,Pentaho(Kettle),Astrix Centerprise。 SSIS出于多种原因,超出了本问题的范围。
此时,我倾向于更像RhinoETL这样的开发人员,因为它似乎是一组开发人员阻力最小的路径。其他更多以视觉设计师为导向的产品是否会带来RhinoETL没有的任何东西?在评估这些ETL工具时,我应该注意哪些具体事项?还有其他工具我们还应该调查吗?
答案 0 :(得分:3)
最近我的同事和我在RhinoETL和SSIS之间进行了一些简单的性能测试。似乎对于简单的数据流,SSIS总是优于RhinoETL(移动2,000,000条记录的速度提高了约30%)。如果您正在使用源代码控制(在我们的案例中为TFS),则无法轻松查看dtsx文件(SSIS文件)版本之间的差异,使用RhinoETL进行开发可以使用TFS功能。
如果您在数据仓库之上开发用户界面,则可以看到RhinoETL的另一个优势。您可以在这两个程序之间共享代码。
虽然我们SSIS团队的一些成员来自.Net背景,但我们的管理层决定继续使用SSIS进行开发(尽管他们已升级到SSIS 2008 - 另一个主题),因为他们觉得开发人员学习起来更容易SSIS比.Net。
答案 1 :(得分:1)
我知道这是一个较晚的答案,但是由于我需要具有所有SSIS功能的适当Elt,但是在100%.net环境中,我开始开发自己的Elt。
当然,性能不如SSIS。我相信,如果您想整合大量大容量的性能并进行转换,仍然应该使用SSIS。
我真正需要的是RhinoEtl之类的其他kinda-etl工具所没有提供的主要功能是一个合适的跟踪系统,该系统可以跟踪任何单个细节,并在必要时可以轻松地进行记录。我为文件系统,ftp,sftp,xml,csv,entityframework核心和批量加载提供了许多现成的适配器。我什至想出了一个可视化工具来查看转换过程的结构。
到目前为止,我花了10个月的时间,并且我开源了它。它仍然缺少很多文档(需要完成很多工作)。我必须以更大的一组单元测试(也需要完成很多工作)来完成它,以便我能够在Beta版中发布它。即使我仍将其保留为alpha版本,它也是公司所有ETL流程的基础,并且像地狱一样工作!