我现在已经使用Hadoop很长一段时间了。一段时间后,我意识到我需要链接Hadoop作业,并拥有某种类型的工作流程。我决定使用Oozie,但找不到有关最佳实践的大量信息。我想从更有经验的人那里听到。
最好的问候
答案 0 :(得分:2)
在github和apache上有关于Oozie的文档。
https://github.com/yahoo/oozie/wiki
http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html
http://incubator.apache.org/oozie/index.html
Apache文档正在更新,应该很快就会上线。
答案 1 :(得分:2)
学习oozie的最佳方法是下载发行版附带的示例tar文件并运行每个文件。它有mapreduce,pig,流工作流以及样本协调器xmls的示例。
首先运行正常的工作流程,然后在调试之后,转移到使用协调器运行工作流程,以便您可以逐步执行。最后一个最佳实践是使工作流和协调器中的大多数变量可以通过component.properties文件进行配置和提供,这样您就不会经常触摸xml。
http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html