标签: hadoop apache-pig
我需要在Hadoop中顺序运行一些Pig脚本。它们必须分开运行。有什么建议吗?
更新
我们正在努力从一个Java类中运行Pig脚本。 Oozie是评论中提到的一种可能性(虽然对我们的需求来说太重了)。我也听说过可以将Pig脚本作为Cascading(http://www.cascading.org/)中更大工作流程的一部分进行编排,并对此进行了一些调查。
答案 0 :(得分:2)
对于一个简单的任务序列,我猜想橘子座的建议可能就足够了。如果您想将猪和/或普通香草MapReduce的更复杂的工作流程结合在一起,您应该看看Oozie
更新:
如果你使用的是猪0.9,你也可以看一下用python这样的语言嵌入猪。继承人link
答案 1 :(得分:1)
在实践中,我将大部分猪脚本包装在bash脚本中。您可以控制shell脚本中的顺序执行:
pig myscript1.pig && pig myscript2.pig && pig myscript3.pig