我正在寻找一个可以在分布式计算环境中管理大规模工作流的开源资源管理器。 我对TORQUE,SLURM,LOADLEVELER进行了调查,SLURM在处理大型节点时优于TORQUE但在单个集群中。所有都用于批处理系统。 Condor用于网格环境,但提供粗粒度分布式parellization。 我觉得Ganglia和Nagios在高性能计算环境中表现出色。但是我想知道Ganglia和Nagios是否可以用于工作流程?可以在调度程序中嵌入我的调度算法,并将其与资源管理器一起使用,而不是Hadoop MapReduce框架吗? 有用的回复更受赞赏。 谢谢。
答案 0 :(得分:2)
Ganglia和Nagios是监控工具,它们不会为您提供资源管理。查看最新的Hadoop。它内部附带资源管理。
新的ResourceManager管理计算的全局分配 应用程序和每个应用程序ApplicationMaster的资源 管理应用程序,安排和协调。