我想了解工作的代码或应用程序如何通过使用--srun
甚至是节点(如果我在口吃中使用MPI)到达分配的计算机节点?
我读到群集通常具有共享的文件系统。这是否意味着节点只是从共享文件系统中获取作业的代码,还是节点之间直接进行通信?
不幸的是,我在Slurm的文档中找不到关于它的信息。
答案 0 :(得分:0)
Slurm将假设所有计算节点都可以以相同的方式访问所需文件(代码以及配置文件和数据)的路径。
通常,集群配备有安装在所有登录和计算节点上的网络文件系统(例如NFS)。通常是用户的主目录,即在连接时“放置”用户的目录。它适用于代码,可执行文件和小型文件。
集群通常还提供另一个文件系统,即并行文件系统(例如Lustre,BeeGFS等),该文件系统也安装在所有计算节点上。通常,并行文件系统比网络文件系统要快,但是“安全”性较低。没有备份,没有快照等。它用于存储临时数据。