有哪些方法可以顺序运行多个Pig脚本?

时间:2011-07-22 11:37:51

标签: hadoop apache-pig

我需要在Hadoop中顺序运行一些Pig脚本。它们必须分开运行。有什么建议吗?

更新

我们正在努力从一个Java类中运行Pig脚本。 Oozie是评论中提到的一种可能性(虽然对我们的需求来说太重了)。我也听说过可以将Pig脚本作为Cascading(http://www.cascading.org/)中更大工作流程的一部分进行编排,并对此进行了一些调查。

2 个答案:

答案 0 :(得分:2)

对于一个简单的任务序列,我猜想橘子座的建议可能就足够了。如果您想将猪和/或普通香草MapReduce的更复杂的工作流程结合在一起,您应该看看Oozie

更新:

如果你使用的是猪0.9,你也可以看一下用python这样的语言嵌入猪。继承人link

答案 1 :(得分:1)

在实践中,我将大部分猪脚本包装在bash脚本中。您可以控制shell脚本中的顺序执行:

pig myscript1.pig && pig myscript2.pig && pig myscript3.pig