什么是小型科学计算集群的最佳软件堆栈

时间:2012-11-22 15:09:02

标签: cluster-computing scientific-computing hpc

我在一个研究小组工作,从事大量的机器学习和计算生物学。

我们目前有一个集群,但维护得很差,I / O吞吐量很低,而且最关键的是没有任何调度或负载平衡设置。因此,要使用它,您必须自己找到一个空闲节点,ssh到该节点,在命令行上运行您的脚本,然后手动收集结果。

实现易于使用的调度程序和负载均衡器的最佳软件堆栈是什么,这样用户可以将其作业提交到中央队列,让它在资源可用时自动运行,并轻松获得结果?< / p>

1 个答案:

答案 0 :(得分:2)

有许多调度程序/资源管理器选项是开源的,并且经过深思熟虑:

  • Torque / Maui,着名的PBS的后代,现在由自适应计算维护
  • Slurm,LLNL的一个新项目,其优势在于它可以很好地扩展
  • Open Grid Engine,néeSunGrid Engine

但是,还有一些完整的软件堆栈旨在简化集群管理:

我正在为其他有建议的人制作社区维基。