级联框架与Talend等ETL工具

时间:2013-07-16 10:21:01

标签: hadoop etl talend cascading

我们一直在使用Cascading框架来创建ETL。

级联给出。

  1. 优化联接
  2. 并行运行的作业
  3. 创建检查点
  4. 开发人员可以使用他们喜欢的语言(java,ruby,scala,clojure)
  5. 单元测试。
  6. 现在我们有两个选项将一些X ETL(成本很高)的工作转换为hadoop工作

    1. 级联工作流程。
    2. Talend jobs。
    3. 我的问题是。

      1. Talend使用pig,hive等作为创建工作的组件。那么我们是否有一些表现上的好处,或者talend会对它进行任何即兴表演吗?
      2. 就Talend而言,我们是否需要担心单元测试(Cascading框架提供)?
      3. 如果我们选择Talend进行级联创建作业(将X ETL转换为hadoop作业),那么这是一个不错的选择。
      4. 将X ETL转换为级联工作流将需要创建给定X ETL中可用的所有组件,但这将是一次性活动。然后我们需要考虑Talend Studio提供的其他功能,如:

        a. Data quality.
        b. Data Profiling.
        c. Data lineage, etc.
        
      5. 就可维护性而言,级联工作管理得非常好,任何人都可以提供有关talend的信息。
      6. 底线是我正在创建一个从X ETL到hadoop作业的转换工具。 我需要从Cascading框架或Talend中选择。

1 个答案:

答案 0 :(得分:0)

我无法回答你的所有问题,但我可以给你回报经验。 Talend开发比From wark或本地语言最有效,并且源代码最容易维护,因为组件已经过优化,而且您的Job的IDE非常清晰。 debuging功能很好,你可以做步骤调试,你可以生成源代码。

对我而言,不方便的是配置管理,Talend与许多分支机构合作并不是很成功。