在群集上的多个节点上并行运行bash循环

时间:2016-01-29 00:01:49

标签: bash parallel-processing cluster-computing

在单个节点上,我能够使用$ FileCounter指定的不同输入并行运行预编译函数update_OSS_internal_compiler(16个核心)。但是,我想将此并行处理扩展到一个节点以外的多个节点,但我不确定如何处理它。

#!/bin/bash

. /u/local/Modules/default/init/modules.sh
module load matlab
export MCR_CACHE_ROOT=$TMPDIR

Macro_Iter=10
ApertNum=121

FullPath=$(pwd)
TempFileFolder=$FullPath/TempFiles

for MacroLoop in $(seq 1 1 $Macro_Iter); do
# WANT TO SSH INTO DIFFERENT NODES AND RUN SAME PROCESS WITH DIFFERENT INPUTS WHILE UPDATING FILECOUNTER AFTER EACH NODE, OR DO SOMETHING SIMILAR
   for FileCounter in $(seq 1 1 $ApertNum); do echo $FileCounter; done | xargs -I{} --max-procs 16 bash -c '
        {
        echo "doing aperture {}"
        ./update_OSS_internal_compiler {}
        } '
      done
   done

   echo "$FullPath/TempFiles/ApertFiles"
   ./update_OSS_global_compiler

感谢任何帮助。

1 个答案:

答案 0 :(得分:1)

检查你是否正在重塑GNU Parallel:

parallel -S worker1 -S worker2 ./update_OSS_internal_compiler ::: arg1 arg2 arg3

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。它通常可以替换for循环。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

如果没有为您的发行版打包GNU Parallel,您可以进行个人安装,不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel