YARN如何管理像Storm这样无休止的工作

时间:2013-06-15 07:50:58

标签: hadoop yarn

几天前,雅虎发布了有关Storm-on-YARN项目http://developer.yahoo.com/blogs/ydn/storm-yarn-released-open-source-143745133.html的信息,该项目有可能在YARN上运行Storm。 这是一个很大的改进,但是我有两个关于运行Storm with YARN等任务的问题。像Storm这样的任务对执行时间没有一些限制......我的意思是,当你运行Storm时,你希望它可以工作几天或几个月 - 监听队列或其他什么。 我的意思是有一组任务在时间执行方面没有限制(我想报告0%的进度)

1)什么是超时?常规M / R挂起时会被杀死,如何预防呢?我浏览了代码,但没有找到任何特殊代码 2)同样,MR1有队列,其中作业等待执行:当集群完成一个作业时,它从队列中拾取下一个作业。 YARN怎么样?如果我要推出无尽的类似风暴的工作A和工作B,那么工作B会被执行吗?

对不起,如果我的问题看起来很荒谬,也许我会想念/不理解某些事情

1 个答案:

答案 0 :(得分:1)

Hadoop的JobTracker负责群集资源和应用程序生命周期。 YARN仅负责管理群集资源,应用程序生命周期是应用程序的责任。

此更改意味着YARN可用于管理任何分布式范例。 MR2当然是初始实现(在YARN上映射/缩小),但是您可以看到其他一些实现,例如您提到的Storm-on-YARN或HortonWorks对integrate SQL in hadoop的意图等。

您可以查看名为Weave from continuuity的库,该库提供了一个用于在YARN上构建分布式应用程序的简单API