MPICH进程冻结,没有任何错误消息也没有警告

时间:2017-04-11 11:33:39

标签: centos mpi mpich

我正在尝试使用RAMS模型(http://vandenheever.atmos.colostate.edu/vdhpage/rams.php)在所有节点中使用CentOs7的新集群中运行气象模拟。我们有其他应用程序在集群中正常运行,向每个节点发送进程,......一切似乎运行正常。

但RAMS模型在并行运行的第一阶段冻结。 RAMS开发人员建议使用mpich2-1.4.1,因为他们已成功通过测试。如果我尝试在主节点中运行并行仿真,它运行正常并启动所需数量的进程。如果我尝试使用其他节点模拟冻结,请不要停止任何错误消息; RAMS模型进程出现在所有使用的节点和主节点中,但是创建了任何输出,RAMS中的常用状态消息不会出现在屏幕上。

运行模型的commnad行是

[paco@Llamp RUN]$ time ../misc/mpich2-1.4.1/bin/mpirun -verbose -machinefile mpd.hosts -n 20 ./rams-6.2.03 -f RAMSIN

我还编译并尝试使用mpich 3.0.4运行,但它的行为完全相同。

可以在

找到mpich2-1.4.1和mpich3.0.4的带-verbose选项的日志消息

MPICH2-1.4.1:https://www.dropbox.com/s/6sgkarmsi5vrdfd/RAMS-mpich2-1.4.1.log?dl=0 MPICH3.0.4:https://www.dropbox.com/s/bxvl5q6dy03pgew/RAMS-mpich2-3.0.4.log?dl=0

cpi示例适用于两个mpich实例

提前感谢您的帮助和最好的问候

编辑1 添加了日志文件头

[paco@Llamp RUN]$ time ../misc/mpich2-1.4.1/bin/mpirun -verbose -machinefile mpd.hosts -n 20 ./rams-6.2.03 -f RAMSIN
host: llamp
host: l2

==================================================================================================
mpiexec options:
----------------
  Base path: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/
  Launcher: (null)
  Debug level: 1
  Enable X: -1

  Global environment:
  -------------------
    XDG_SESSION_ID=1376
    HOSTNAME=Llamp
    SELINUX_ROLE_REQUESTED=
    TERM=xterm-256color
    SHELL=/bin/bash
    HISTSIZE=1000
    SSH_CLIENT=193.144.100.32 35848 22
    SELINUX_USE_CURRENT_RANGE=
    QTDIR=/usr/lib64/qt-3.3
    QTINC=/usr/lib64/qt-3.3/include
    SSH_TTY=/dev/pts/0
    QT_GRAPHICSSYSTEM_CHECKED=1
    USER=paco
    LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:
    MAIL=/var/spool/mail/paco
    PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin
    PWD=/export/RAMS/RUN
    LANG=es_ES.UTF-8
    MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles
    LOADEDMODULES=
    SELINUX_LEVEL_REQUESTED=
    HISTCONTROL=ignoredups
    SHLVL=1
    HOME=/home/paco
    LOGNAME=paco
    QTLIB=/usr/lib64/qt-3.3/lib
    SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22
    MODULESHOME=/usr/share/Modules
    LESSOPEN=||/usr/bin/lesspipe.sh %s
    XDG_RUNTIME_DIR=/run/user/1003
    BASH_FUNC_module()=() {  eval `/usr/bin/modulecmd bash $*`
}
    _=../misc/mpich2-1.4.1/bin/mpirun
    OLDPWD=/export/RAMS

  Hydra internal environment:
  ---------------------------
    GFORTRAN_UNBUFFERED_PRECONNECTED=y


    Proxy information:
    *********************
      [1] proxy: llamp (1 cores)
      Exec list: ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); 

      [2] proxy: l2 (1 cores)
      Exec list: ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); ./rams-6.2.03 (1 processes); 


==================================================================================================

[mpiexec@Llamp] Timeout set to -1 (-1 means infinite)
[mpiexec@Llamp] Got a control port string of llamp:32814

Proxy launch args: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id 

[mpiexec@Llamp] PMI FD: (null); PMI PORT: (null); PMI ID/RANK: -1
Arguments being passed to proxy 0:
--version 1.4.1 --iface-ip-env-name MPICH_INTERFACE_HOSTNAME --hostname llamp --global-core-map 0,1,1 --filler-process-map 0,1,1 --global-process-count 20 --auto-cleanup 1 --pmi-rank -1 --pmi-kvsname kvs_29606_0 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 33 'XDG_SESSION_ID=1376' 'HOSTNAME=Llamp' 'SELINUX_ROLE_REQUESTED=' 'TERM=xterm-256color' 'SHELL=/bin/bash' 'HISTSIZE=1000' 'SSH_CLIENT=193.144.100.32 35848 22' 'SELINUX_USE_CURRENT_RANGE=' 'QTDIR=/usr/lib64/qt-3.3' 'QTINC=/usr/lib64/qt-3.3/include' 'SSH_TTY=/dev/pts/0' 'QT_GRAPHICSSYSTEM_CHECKED=1' 'USER=paco' 'LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:' 'MAIL=/var/spool/mail/paco' 'PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin' 'PWD=/export/RAMS/RUN' 'LANG=es_ES.UTF-8' 'MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles' 'LOADEDMODULES=' 'SELINUX_LEVEL_REQUESTED=' 'HISTCONTROL=ignoredups' 'SHLVL=1' 'HOME=/home/paco' 'LOGNAME=paco' 'QTLIB=/usr/lib64/qt-3.3/lib' 'SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22' 'MODULESHOME=/usr/share/Modules' 'LESSOPEN=||/usr/bin/lesspipe.sh %s' 'XDG_RUNTIME_DIR=/run/user/1003' 'BASH_FUNC_module()=() {  eval `/usr/bin/modulecmd bash $*`
}' '_=../misc/mpich2-1.4.1/bin/mpirun' 'OLDPWD=/export/RAMS' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN 

[mpiexec@Llamp] PMI FD: (null); PMI PORT: (null); PMI ID/RANK: -1
Arguments being passed to proxy 1:
--version 1.4.1 --iface-ip-env-name MPICH_INTERFACE_HOSTNAME --hostname l2 --global-core-map 1,1,0 --filler-process-map 1,1,0 --global-process-count 20 --auto-cleanup 1 --pmi-rank -1 --pmi-kvsname kvs_29606_0 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 33 'XDG_SESSION_ID=1376' 'HOSTNAME=Llamp' 'SELINUX_ROLE_REQUESTED=' 'TERM=xterm-256color' 'SHELL=/bin/bash' 'HISTSIZE=1000' 'SSH_CLIENT=193.144.100.32 35848 22' 'SELINUX_USE_CURRENT_RANGE=' 'QTDIR=/usr/lib64/qt-3.3' 'QTINC=/usr/lib64/qt-3.3/include' 'SSH_TTY=/dev/pts/0' 'QT_GRAPHICSSYSTEM_CHECKED=1' 'USER=paco' 'LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:' 'MAIL=/var/spool/mail/paco' 'PATH=/export/RAMS/misc/mpich2-1.4.1/bin:/export/RAMS/misc/hdf5-1.8.9/bin:/usr/lib64/qt-3.3/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/paco/.local/bin:/home/paco/bin' 'PWD=/export/RAMS/RUN' 'LANG=es_ES.UTF-8' 'MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles' 'LOADEDMODULES=' 'SELINUX_LEVEL_REQUESTED=' 'HISTCONTROL=ignoredups' 'SHLVL=1' 'HOME=/home/paco' 'LOGNAME=paco' 'QTLIB=/usr/lib64/qt-3.3/lib' 'SSH_CONNECTION=193.144.100.32 35848 193.144.100.45 22' 'MODULESHOME=/usr/share/Modules' 'LESSOPEN=||/usr/bin/lesspipe.sh %s' 'XDG_RUNTIME_DIR=/run/user/1003' 'BASH_FUNC_module()=() {  eval `/usr/bin/modulecmd bash $*`
}' '_=../misc/mpich2-1.4.1/bin/mpirun' 'OLDPWD=/export/RAMS' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /export/RAMS/RUN --exec-args 3 ./rams-6.2.03 -f RAMSIN 

[mpiexec@Llamp] Launch arguments: /export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id 0 
[mpiexec@Llamp] Launch arguments: /usr/bin/ssh -x l2 "/export/RAMS/RUN/../misc/mpich2-1.4.1/bin/hydra_pmi_proxy" --control-port llamp:32814 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --proxy-id 1 
[proxy:0:0@Llamp] got pmi command (from 0): init
pmi_version=1 pmi_subversion=1 
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 6): init
pmi_version=1 pmi_subversion=1 
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 8): init
pmi_version=1 pmi_subversion=1 
[proxy:0:0@Llamp] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:0@Llamp] got pmi command (from 0): get_maxes

[proxy:0:0@Llamp] PMI response: cmd=maxes kvsname_max=256 keylen_max=64 vallen_max=1024
[proxy:0:0@Llamp] got pmi command (from 6): get_maxes

[proxy:0:0@Llamp] PMI response: cmd=maxes kvsname_max=256 keylen_max=64 vallen_max=1024
[proxy:0:0@Llamp] got pmi command (from 0): get_appnum

[proxy:0:0@Llamp] PMI response: cmd=appnum appnum=0
[proxy:0:0@Llamp] got pmi command (from 8): get_maxes

编辑2 添加了日志文件的尾部

 00001116000000   ./geodata/ndh-N-0000-11-16-000000-g3.h5
 00001216120000   ./geodata/ndh-N-0000-12-16-120000-g3.h5
 ------------------------------------------------------
 Surface, topo, sst, and ndvi files all ok for
    RUNTYPE = INITIAL
   Initial start:INITIAL                     2

[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 25: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] got pmi command (from 25): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 5): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 7): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 10): get
kvsname=kvs_29606_0 key=P0-businesscard 
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 5: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 13): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 16): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 19): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] got pmi command (from 22): get
kvsname=kvs_29606_0 key=P0-businesscard 
[proxy:0:1@l2] forwarding command (cmd=get kvsname=kvs_29606_0 key=P0-businesscard) upstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 7: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 10: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 13: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 16: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 19: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[mpiexec@Llamp] [pgid: 0] got PMI command: cmd=get kvsname=kvs_29606_0 key=P0-businesscard
[mpiexec@Llamp] PMI response to fd 7 pid 22: cmd=get_result rc=0 msg=success value=description#llamp$port#53500$ifname#192.168.2.101$
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream
[proxy:0:1@l2] we don't understand the response get_result; forwarding downstream

编辑3

ifconfig -a  LLAMP

enp5s0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 38:d5:47:99:8d:75  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device memory 0xc6200000-c627ffff  

enp6s0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 193.144.100.45  netmask 255.255.255.0  broadcast 193.144.100.255
        inet6 fe80::c586:920:4d0d:b72e  prefixlen 64  scopeid 0x20<link>
        ether 38:d5:47:99:8d:76  txqueuelen 1000  (Ethernet)
        RX packets 6054655  bytes 852521221 (813.0 MiB)
        RX errors 0  dropped 79434  overruns 0  frame 0
        TX packets 2776240  bytes 3945364551 (3.6 GiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device memory 0xc6100000-c617ffff  

ens2f0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.2.101  netmask 255.255.255.0  broadcast 192.168.2.255
        inet6 fe80::3fcf:81c8:d9d3:276b  prefixlen 64  scopeid 0x20<link>
        ether 34:97:f6:5b:48:1d  txqueuelen 1000  (Ethernet)
        RX packets 2269948483  bytes 3155530639905 (2.8 TiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 2271491960  bytes 3147155639055 (2.8 TiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 26  memory 0xc3000000-c37fffff  

ens2f1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 34:97:f6:5b:48:1f  txqueuelen 1000  (Ethernet)
        RX packets 25911443  bytes 37100250017 (34.5 GiB)
        RX errors 506  dropped 0  overruns 0  frame 506
        TX packets 25917681  bytes 37113403100 (34.5 GiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 55  memory 0xc2000000-c27fffff  

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1  (Local Loopback)
        RX packets 174114  bytes 59215534 (56.4 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 174114  bytes 59215534 (56.4 MiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

virbr0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        inet 192.168.122.1  netmask 255.255.255.0  broadcast 192.168.122.255
        ether 52:54:00:50:f8:93  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

virbr0-nic: flags=4098<BROADCAST,MULTICAST>  mtu 1500
        ether 52:54:00:50:f8:93  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0




ifconfig -a L2
  enp5s0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 38:d5:47:9a:60:ea  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device memory 0xc6200000-c627ffff  

enp6s0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 38:d5:47:9a:60:eb  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device memory 0xc6100000-c617ffff  

ens2f0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.2.102  netmask 255.255.255.0  broadcast 192.168.2.255
        inet6 fe80::212e:6f32:3a10:915f  prefixlen 64  scopeid 0x20<link>
        ether 38:d5:47:01:d2:ff  txqueuelen 1000  (Ethernet)
        RX packets 3040525097  bytes 4219639728177 (3.8 TiB)
        RX errors 1  dropped 1  overruns 0  frame 1
        TX packets 3043720685  bytes 4232541936966 (3.8 TiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 26  memory 0xc3000000-c37fffff  

ens2f1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 38:d5:47:01:d3:01  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 55  memory 0xc2000000-c27fffff  

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1  (Local Loopback)
        RX packets 20553  bytes 1664700 (1.5 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 20553  bytes 1664700 (1.5 MiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

virbr0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        inet 192.168.122.1  netmask 255.255.255.0  broadcast 192.168.122.255
        ether 52:54:00:2d:b7:b6  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

virbr0-nic: flags=4098<BROADCAST,MULTICAST>  mtu 1500
        ether 52:54:00:2d:b7:b6  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

0 个答案:

没有答案