如何通过Shell脚本利用并行节点?

时间:2012-12-19 04:12:25

标签: linux shell parallel-processing nodes

我正在尝试利用并行节点来运行数值模拟。我有节点#0到12,我希望各自单独使用它们来运行模拟的单独部分。基本上,我需要在一个节点上评估x = 1到4的f(x),然后在下一个节点上评估f(x)x = 5到9,然后f(x)表示x = 10到14下一个,然后从那里开始。最初,我尝试使用类似的循环:

n=0
while [ $n -le 12 ]
do
   ssh compute-0-$n
   #evaluate the f(x) for the x values that I want
   exit
   n=$(($n+1))
done

但是这没有用,因为每当我使用ssh compute-0- $ n命令跳转到一个节点时,与原始shell脚本的连接似乎停止,当我退出节点时,shell脚本似乎继续沿着它的快乐方式...我想有一个更好的方法来实现这一点,但我相对较新,有人可以帮忙吗?

3 个答案:

答案 0 :(得分:1)

首先要了解的是,当你运行ssh(没有&)时,ssh本身会一直运行直到完成。它在远程主机上打开一个新shell,并读取命令 - 但不是从启动它的脚本中读取命令。 ssh会话不知道启动它的脚本;它正在等待stdin的命令。

你需要做三件事:

  1. 在ssh行之后从循环内部获取所有代码,然后放入 它变成了自己的脚本(称之为docompute.sh)。
  2. 打开该脚本     每个计算节点,在$ PATH变量的目录中     执行用户,
  3. 在父脚本中
  4. ,替换中的所有内容     循环ssh compute-0-$n docompute.sh &&会得到你     你想要的并行性,通过运行ssh进程     背景
  5. 有关非常相似的内容的讨论,请参阅running same script over many machines。使用&在那里运行命令是关键。

答案 1 :(得分:0)

如果在ubuntu中,你可以使用odp程序。

该程序利用并行ssh同时运行命令。 用户只需要将他们的数据中心配置和脚本写入配置文件,然后使用该程序并行执行。

这里是网址: http://sourceforge.net/projects/odp/

答案 2 :(得分:0)

GNU Parallel就是为了完成这类任务而制作的。

evaluate_f() {
  x="$1"
  # do some crazy computation
}
seq 48 | env_parallel --env evaluate_f -Snode{1..12} evaluate_f {}

如果机器实际上没有被称为node1 .. node12,那么会变得更长一些:

seq 48 | env_parallel --env evaluate_f -Snode1,nodeb,nodeIII,node0100,node0x5,node6,nodeg,nodeVIII,node01001,node0xa,node11,nodel evaluate_f {}

如果文件中有节点:

seq 48 | env_parallel --env evaluate_f --slf my_nodefile evaluate_f {}

这样做是将函数evaluate_f复制到远程服务器并使用seq 48中的一个参数在那里运行它。默认情况下,它将在服务器中为每个cpu-core运行一个作业。如果您的计算不是多线程且没有大量磁盘I / O,这是有意义的。这可以通过--jobs进行更改。

env_parallel是在20160322版本中引入的,因此请确保您的版本比此版本更新。

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

您应该使用软件包管理器安装GNU Parallel,但如果没有为您的发行版打包GNU Parallel,则可以进行个人安装,不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel