GNU Parallel - 哪个工作失败了?

时间:2014-06-23 15:55:08

标签: bash parallel-processing

我使用GNU parallel在几个不同的服务器(最多25个)上运行作业。

实现此目的的shell脚本当前执行:

parallel --tag --nonall -S $some_list_of_servers "some_command"
state=$?
echo -n "RESULT: "
if [ "$state" -eq "0" ]
then
    echo "All jobs successful"
else
    echo "$state jobs failed"
fi
return $state

其中some_list_of_servers是一个数组,而install_command例如是git fetch。

我想要的不仅仅是有多少工作失败了。我想知道哪个命令和哪个服务器失败了。

我已经浏览了手册页,google和SO,但无法找到我正在寻找的开关。

感谢任何帮助。

WeeDom

编辑回答答案1:

我试过了,发生了一些奇怪的事情。

weedom@host1: ~/$ parallel --tag --nonall  -j8 --joblog test.log -S host1,host2 uptime 
host2   10:41:17 up 36 days, 20:45,  1 user,  load average: 0.00, 0.00, 0.00
host1         10:41:17 up 22:34,  3 users,  load average: 0.06, 0.11, 0.04
weedom@host1: ~/$ cat test.log
Seq     Host    Starttime       Runtime Send    Receive Exitval Signal  Command
1       host1        1403689277.067  0.519999980926514       0       0       0      0       uptime

无论我添加多少个主机-S,我似乎只能完成最后一个完成test.log

我在此处添加了一个后续问题:GNU Parallel - --joblog only logging last job

1 个答案:

答案 0 :(得分:5)

您想要使用--joblog option,如文档中所示。 Gnu parallel甚至允许使用--resume-failed重新启动失败的那些。

例如,运行此脚本:

#!/bin/bash
jobmod=$(( $1 % 3 ))
if [ $jobmod == 0 ]
then
    exit 1
else
    exit 0
fi 

在这样的几个主机上:

$ seq 1 10 | parallel --joblog out.log -S "srv01,srv02,srv03,srv04" ./failjob 

给出

$ more out.log
Seq Host    Starttime   Runtime Send    Receive Exitval Signal  Command
1   srv01   1403542514.713  0.267   0   0   0   0   ./failjob 1
3   srv02   1403542514.717  0.266   0   0   1   0   ./failjob 3
4   srv03   1403542514.719  0.266   0   0   0   0   ./failjob 4
2   srv04   1403542514.715  0.397   0   0   0   0   ./failjob 2
5   srv01   1403542514.983  0.231   0   0   0   0   ./failjob 5
6   srv02   1403542514.986  0.368   0   0   1   0   ./failjob 6
7   srv03   1403542514.988  0.388   0   0   0   0   ./failjob 7
8   srv04   1403542515.121  0.437   0   0   0   0   ./failjob 8
9   srv01   1403542515.221  0.343   0   0   1   0   ./failjob 9
10  srv02   1403542515.356  0.388   0   0   0   0   ./failjob 10