我是集群计算的新手,想要了解用于集群计算的各种软件,以及最适合特定任务的软件。特别是,我试图解决的问题涉及Manager / Workers类型场景,其中单个Manager负责创建100到1000个作业。每个作业虽然相对较大,但必须在逐帧的基础上执行。即经理将告诉每个工作,“提前一帧并向我汇报”。单帧的执行将非常小,因此Manager和工作机器之间的延迟必须非常小,大约为微秒。
谢谢!任何信息都会受到赞赏,即使是不完全适合我所描述的场景的东西,只是为了给我一个起点。到目前为止我研究的一些是Hadoop,HTCondor和Akka。
答案 0 :(得分:0)
由于通信延迟对您很重要,您应该考虑使用MPI。使用MPI编写简单的Master / Worker程序并不困难,它可能会为您提供最佳性能,尤其是当您的集群具有高性能网络时,例如infiniband。
如果您正在使用Java,那么您将不得不进行一些研究来确定一个好的Java / MPI包。你会在这里找到一些建议:Java openmpi。