oozie:并行运行数百个作业

时间:2015-04-03 05:01:14

标签: hadoop oozie cloudera-cdh

最初我们有五个表要处理,所以我们为5个表创建了fork,如下所示。但现在我们需要并行处理125个表。如果我分叉所有125个表,workflow.xml变大,无法维护。如何配置工作流以并行处理所有125个表。

<start to="fork-966"/>
<fork name="fork-966">
    <path start="table1_sqoop" />
    <path start="table2_sqoop" />
    <path start="table3_sqoop" />
    <path start="table4_sqoop" />
    <path start="table5_sqoop" />
</fork>

帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

125之类的声音可能不是限制......

另外,如果您需要阅读125个表格,我建议您重新考虑您的设计。

对于您当前的问题,您可以执行下一个问题:

  1. 叉125次
  2. 包含子工作流程。这可以是param&#39;
  3. 创建运行125个工作流程的捆绑包,这样你就可以写下你的工作流程了。只有一次,捆绑可以重新运行125次。如果一个失败,其余的仍在运行
  4. 再次 - 我认为你需要重新考虑你的设计