我正在尝试使用RAMS模型(http://vandenheever.atmos.colostate.edu/vdhpage/rams.php)在所有节点中使用CentOs7的新集群中运行气象模拟。我们有其他应用程序在集群中正常运行,向每个节点发送进程,......一切似乎运行正常。
但RAMS模型在并行运行的第一阶段冻结。 RAMS开发人员建议使用mpich2-1.4.1,因为他们已成功通过测试。如果我尝试在主节点中运行并行仿真,它运行正常并启动所需数量的进程。如果我尝试使用其他节点模拟冻结,请不要停止任何错误消息; RAMS模型进程出现在所有使用的节点和主节点中,但是创建了任何输出,RAMS中的常用状态消息不会出现在屏幕上。
运行模型的commnad行是
[paco@Llamp RUN]$ time ../misc/mpich2-1.4.1/bin/mpirun -verbose -machinefile mpd.hosts -n 20 ./rams-6.2.03 -f RAMSIN
我还编译并尝试使用mpich 3.0.4运行,但它的行为完全相同。
可以在
找到mpich2-1.4.1和mpich3.0.4的带-verbose选项的日志消息MPICH2-1.4.1:https://www.dropbox.com/s/6sgkarmsi5vrdfd/RAMS-mpich2-1.4.1.log?dl=0 MPICH3.0.4:https://www.dropbox.com/s/bxvl5q6dy03pgew/RAMS-mpich2-3.0.4.log?dl=0
cpi示例适用于两个mpich实例
提前感谢您的帮助和最好的问候
编辑1 添加了日志文件头
[paco@Llamp RUN]$ time ../misc/mpich2-1.4.1/bin/mpirun -verbose -machinefile mpd.hosts -n 20 ./rams-6.2.03 -f RAMSIN
host: llamp
host: l2
==================================================================================================
mpiexec options:
----------------
Base path: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/
Launcher: (null)
Debug level: 1
Enable X: -1
Global environment:
-------------------
XDG_SESSION_ID=1376
HOSTNAME=Llamp
SELINUX_ROLE_REQUESTED=
TERM=xterm-256color
SHELL=/bin/bash
HISTSIZE=1000
SSH_CLIENT=193.144.100.32 35848 22
SELINUX_USE_CURRENT_RANGE=
QTDIR=/usr/lib64/qt-3.3
QTINC=/usr/lib64/qt-3.3/include
SSH_TTY=/dev/pts/0
QT_GRAPHICSSYSTEM_CHECKED=1
USER=paco
LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:
MAIL=/var/spool/mail/paco
PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin
PWD=/export/RAMS/RUN
LANG=es_ES.UTF-8
MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles
LOADEDMODULES=
SELINUX_LEVEL_REQUESTED=
HISTCONTROL=ignoredups
SHLVL=1
HOME=/home/paco
LOGNAME=paco
QTLIB=/usr/lib64/qt-3.3/lib
SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22
MODULESHOME=/usr/share/Modules
LESSOPEN=||/usr/bin/lesspipe.sh %s
XDG_RUNTIME_DIR=/run/user/1003
BASH_FUNC_module()=() { eval `/usr/bin/modulecmd bash $*`
}
_=../misc/mpich2-1.4.1/bin/mpirun
OLDPWD=/export/RAMS
Hydra internal environment:
---------------------------
GFORTRAN_UNBUFFERED_PRECONNECTED=y
Proxy information:
*********************
[1] proxy: llamp (1 cores)
Exec list: ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes);
[2] proxy: l2 (1 cores)
Exec list: ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes);
==================================================================================================
[mpiexec@Llamp] Timeout set to -1 (-1 means infinite)
[mpiexec@Llamp] Got a control port string of llamp:32814
Proxy launch args: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id
[mpiexec@Llamp] PMI FD: (null); PMI PORT: (null); PMI ID/RANK: -1
Arguments being passed to proxy 0:
--version 1.4.1 --iface-ip-env-name MPICH_INTERFACE_HOSTNAME --hostname llamp --global-core-map 0,1,1 --filler-process-map 0,1,1 --global-process-count 20 --auto-cleanup 1 --pmi-rank -1 --pmi-kvsname kvs_29606_0 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 33 'XDG_SESSION_ID=1376' 'HOSTNAME=Llamp' 'SELINUX_ROLE_REQUESTED=' 'TERM=xterm-256color' 'SHELL=/bin/bash' 'HISTSIZE=1000' 'SSH_CLIENT=193.144.100.32 35848 22' 'SELINUX_USE_CURRENT_RANGE=' 'QTDIR=/usr/lib64/qt-3.3' 'QTINC=/usr/lib64/qt-3.3/include' 'SSH_TTY=/dev/pts/0' 'QT_GRAPHICSSYSTEM_CHECKED=1' 'USER=paco' 'LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:' 'MAIL=/var/spool/mail/paco' 'PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin' 'PWD=/export/RAMS/RUN' 'LANG=es_ES.UTF-8' 'MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles' 'LOADEDMODULES=' 'SELINUX_LEVEL_REQUESTED=' 'HISTCONTROL=ignoredups' 'SHLVL=1' 'HOME=/home/paco' 'LOGNAME=paco' 'QTLIB=/usr/lib64/qt-3.3/lib' 'SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22' 'MODULESHOME=/usr/share/Modules' 'LESSOPEN=||/usr/bin/lesspipe.sh %s' 'XDG_RUNTIME_DIR=/run/user/1003' 'BASH_FUNC_module()=() { eval `/usr/bin/modulecmd bash $*`
}' '_=../misc/mpich2-1.4.1/bin/mpirun' 'OLDPWD=/export/RAMS' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN
[mpiexec@Llamp] PMI FD: (null); PMI PORT: (null); PMI ID/RANK: -1
Arguments being passed to proxy 1:
--version 1.4.1 --iface-ip-env-name MPICH_INTERFACE_HOSTNAME --hostname l2 --global-core-map 1,1,0 --filler-process-map 1,1,0 --global-process-count 20 --auto-cleanup 1 --pmi-rank -1 --pmi-kvsname kvs_29606_0 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 33 'XDG_SESSION_ID=1376' 'HOSTNAME=Llamp' 'SELINUX_ROLE_REQUESTED=' 'TERM=xterm-256color' 'SHELL=/bin/bash' 'HISTSIZE=1000' 'SSH_CLIENT=193.144.100.32 35848 22' 'SELINUX_USE_CURRENT_RANGE=' 'QTDIR=/usr/lib64/qt-3.3' 'QTINC=/usr/lib64/qt-3.3/include' 'SSH_TTY=/dev/pts/0' 'QT_GRAPHICSSYSTEM_CHECKED=1' 'USER=paco' 'LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:' 'MAIL=/var/spool/mail/paco' 'PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin' 'PWD=/export/RAMS/RUN' 'LANG=es_ES.UTF-8' 'MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles' 'LOADEDMODULES=' 'SELINUX_LEVEL_REQUESTED=' 'HISTCONTROL=ignoredups' 'SHLVL=1' 'HOME=/home/paco' 'LOGNAME=paco' 'QTLIB=/usr/lib64/qt-3.3/lib' 'SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22' 'MODULESHOME=/usr/share/Modules' 'LESSOPEN=||/usr/bin/lesspipe.sh %s' 'XDG_RUNTIME_DIR=/run/user/1003' 'BASH_FUNC_module()=() { eval `/usr/bin/modulecmd bash $*`
}' '_=../misc/mpich2-1.4.1/bin/mpirun' 'OLDPWD=/export/RAMS' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN
[mpiexec@Llamp] Launch arguments: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id 0
[mpiexec@Llamp] Launch arguments: /usr/bin/ssh -x l2 "/export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy" --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id 1
[proxy:0:0@Llamp] got pmi command (from 0): init
pmi_version=1 pmi_subversion=1
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 6): init
pmi_version=1 pmi_subversion=1
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 8): init
pmi_version=1 pmi_subversion=1
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 0): get_maxes
[proxy:0:0@Llamp] PMI response: cmd=maxes kvsname_max=256 keylen_max=64 vallen_max=1024
[proxy:0:0@Llamp] got pmi command (from 6): get_maxes
[proxy:0:0@Llamp] PMI response: cmd=maxes kvsname_max=256 keylen_max=64 vallen_max=1024
[proxy:0:0@Llamp] got pmi command (from 0): get_appnum
[proxy:0:0@Llamp] PMI response: cmd=appnum appnum=0
[proxy:0:0@Llamp] got pmi command (from 8): get_maxes
编辑2 添加了日志文件的尾部
00001116000000 ./geodata/ndh-N-0000-11-16-000000-g3.h5
00001216120000 ./geodata/ndh-N-0000-12-16-120000-g3.h5
------------------------------------------------------
Surface, topo, sst, and ndvi files all ok for
RUNTYPE = INITIAL
Initial start:INITIAL 2
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 25: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] got pmi command (from 25): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 5): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 7): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 10): get
kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 5: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 13): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 16): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 19): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 22): get
kvsname=kvs_29606_0 key=P0-businesscard
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 7: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 10: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 13: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 16: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 19: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 22: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
编辑3
ifconfig -a LLAMP
enp5s0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
ether 38:d5:47:99:8d:75 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device memory 0xc6200000-c627ffff
enp6s0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 193.144.100.45 netmask 255.255.255.0 broadcast 193.144.100.255
inet6 fe80::c586:920:4d0d:b72e prefixlen 64 scopeid 0x20<link>
ether 38:d5:47:99:8d:76 txqueuelen 1000 (Ethernet)
RX packets 6054655 bytes 852521221 (813.0 MiB)
RX errors 0 dropped 79434 overruns 0 frame 0
TX packets 2776240 bytes 3945364551 (3.6 GiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device memory 0xc6100000-c617ffff
ens2f0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.168.2.101 netmask 255.255.255.0 broadcast 192.168.2.255
inet6 fe80::3fcf:81c8:d9d3:276b prefixlen 64 scopeid 0x20<link>
ether 34:97:f6:5b:48:1d txqueuelen 1000 (Ethernet)
RX packets 2269948483 bytes 3155530639905 (2.8 TiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 2271491960 bytes 3147155639055 (2.8 TiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 26 memory 0xc3000000-c37fffff
ens2f1: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
ether 34:97:f6:5b:48:1f txqueuelen 1000 (Ethernet)
RX packets 25911443 bytes 37100250017 (34.5 GiB)
RX errors 506 dropped 0 overruns 0 frame 506
TX packets 25917681 bytes 37113403100 (34.5 GiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 55 memory 0xc2000000-c27fffff
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1 (Local Loopback)
RX packets 174114 bytes 59215534 (56.4 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 174114 bytes 59215534 (56.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
virbr0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
inet 192.168.122.1 netmask 255.255.255.0 broadcast 192.168.122.255
ether 52:54:00:50:f8:93 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
virbr0-nic: flags=4098<BROADCAST,MULTICAST> mtu 1500
ether 52:54:00:50:f8:93 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
ifconfig -a L2
enp5s0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
ether 38:d5:47:9a:60:ea txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device memory 0xc6200000-c627ffff
enp6s0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
ether 38:d5:47:9a:60:eb txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device memory 0xc6100000-c617ffff
ens2f0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.168.2.102 netmask 255.255.255.0 broadcast 192.168.2.255
inet6 fe80::212e:6f32:3a10:915f prefixlen 64 scopeid 0x20<link>
ether 38:d5:47:01:d2:ff txqueuelen 1000 (Ethernet)
RX packets 3040525097 bytes 4219639728177 (3.8 TiB)
RX errors 1 dropped 1 overruns 0 frame 1
TX packets 3043720685 bytes 4232541936966 (3.8 TiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 26 memory 0xc3000000-c37fffff
ens2f1: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
ether 38:d5:47:01:d3:01 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 55 memory 0xc2000000-c27fffff
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1 (Local Loopback)
RX packets 20553 bytes 1664700 (1.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 20553 bytes 1664700 (1.5 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
virbr0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
inet 192.168.122.1 netmask 255.255.255.0 broadcast 192.168.122.255
ether 52:54:00:2d:b7:b6 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
virbr0-nic: flags=4098<BROADCAST,MULTICAST> mtu 1500
ether 52:54:00:2d:b7:b6 txqueuelen 1000 (Ethernet)
RX packets 0 bytes 0 (0.0 B)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 0 bytes 0 (0.0 B)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0