标签: hadoop workflow apache-pig oozie
我需要处理大量特定日期的文件。我发现只有一个解决方案,即每次启动一个作业N次,每次都有不同的数据集。使用的分区基于yyyy,mm,dd。我有一个java动作,它生成用于每个数据的好分区。
我的问题是,如何创建循环以启动我的脚本N次?我今天在oozie工作流程中工作。
由于
答案 0 :(得分:1)
这听起来像coordinators的用例。
您可以声明Datasets并让oozie在特定数据集实例可用时自动启动工作流程。