我想知道是否有人在运行MPI时有使用CRAY CX1的经验?当我运行我的代码(即MCNP - > https://en.wikipedia.org/wiki/Monte_Carlo_N-Particle_Transport_Code)时,我的节点会出现间歇性崩溃。我的CX1由8个刀片或节点组成(运行Window HPC 2008 R2),它们会间歇性地崩溃。有时候他们会自行重启,有时候他们根本不会重新启动并给我一个错误,例如我CPU 00/cnhannel01/Dimm00 unexpected error
我尝试更换ram并且它似乎没有帮助。< / p>
以下是我用于使用批处理文件运行文件的命令。
c:\mpich2\bin\mpiexec.exe -hosts 8 HEADNODE 8 CRAYNODE02 8 CRAYNODE03 8 CRAYNODE04 8 CRAYNODE05 8 CRAYNODE06 8 CRAYNODE07 8 CRAYNODE08 8 \\HEADNODE\USERS\administrator\desktop\win64mpi\bin\mcnpx.exe i=\\headnode\users\9m100122 n=\\headnode\users\9m100122.
我对MPI有基本的了解,并且已经在网上查找并且发现了很少有关此问题的信息。