让我们说我在Hadoop环境中受资源限制,而且我不想安排真正长时间运行的工作(即需要数天才能完成)。我正在分析大量过去的时间序列数据。我想安排mapreduce工作,一次只需要一天的数据(这需要一个小时的时间来处理)。
那么我如何安排在上一份工作完成后立即提交新工作?
答案 0 :(得分:1)
如果您想要一种快速而简单的方法,您可以编写一个shell脚本,按顺序为您要运行的每个作业调用hadoop jar
。
如果您想要更强大的方法,可以使用Apache Oozie来定义将按顺序运行作业的workflow个作业。如果您是Hadoop的新手,您可能会发现使用Hue GUI定义和运行Oozie工作流程最简单。