标签: cluster-computing scientific-computing hpc
我在一个研究小组工作,从事大量的机器学习和计算生物学。
我们目前有一个集群,但维护得很差,I / O吞吐量很低,而且最关键的是没有任何调度或负载平衡设置。因此,要使用它,您必须自己找到一个空闲节点,ssh到该节点,在命令行上运行您的脚本,然后手动收集结果。
实现易于使用的调度程序和负载均衡器的最佳软件堆栈是什么,这样用户可以将其作业提交到中央队列,让它在资源可用时自动运行,并轻松获得结果?< / p>
答案 0 :(得分:2)
有许多调度程序/资源管理器选项是开源的,并且经过深思熟虑:
但是,还有一些完整的软件堆栈旨在简化集群管理:
我正在为其他有建议的人制作社区维基。