限制产生并行进程并在任何

时间:2016-03-11 20:19:48

标签: bash shell parallel-processing gnu-parallel

我通过从脚本调用进程来并行运行一些测试。每个进程仅打印到stdout>一个文件,如果成功则退出0(否则为-1)。

如果进程以-1退出,我将某些内容打印到其(或相关的)输出文件(即调用它的参数),杀死所有其他进程,然后退出。

我使用trap "..." CHLD编写了一个脚本,当子进程退出时运行一些代码,这在某些条件下工作,但我发现我的脚本不是很健壮。如果我发送键盘中断,有时子进程会继续运行,有时子进程的数量只会使机器淹没,而且它们似乎都没有进展。

我在我的四核笔记本电脑上使用它以及128个CPU的集群,子程序自动分配。 如何在bash脚本中运行大量后台子进程,仅限于一些并发运行的子进程,如果其中一个返回错误代码,则执行某些操作+退出?我还想要键盘中断后清理的脚本。我应该使用GNU并行吗?如何?

到目前为止,这是我的脚本的MWE,它不受阻碍地产生子进程,用我认为每个部分的含义注释。我决定使用shell - get exit code of background process

中的trap
$ cat parallel_tests.sh 
#!/bin/bash
# some help from https://stackoverflow.com/questions/1570262/shell-get-exit-code-of-background-process
handle_chld() {
        #echo pids are ${pids[@]}
    local tmp=() ###temporary storage for pids that haven't finished
        #for each pid that hadn't finished since the last trap
    for((i=0;i<${#pids[@]};++i)); do
                #if this pid is still running
        if [[ $(ps -p ${pids[i]} -o pid=) ]]
                then
                        tmp+=(${pids[i]}) ### add pid to list of pids that are running
                else
            wait ${pids[i]} ### put the exit code of this pid into $?
                        if [ "$?" != "0" ] ### if the exit code $? is non-zero
                        then
                                #kill all remaning processes
                                for((j=0;j<${#pids[@]};++j))
                                do
                                        if [[ $(ps -p ${pids[j]} -o pid=) ]]
                                        then
                                            echo killing child processes of ${pids[j]}
                                            pkill -P ${pids[j]}
                                        fi
                                done
                                cat _tmp${pids[i]}
                                #print things to the terminal here
                                echo "FAILED process ${pids[i]} args:   `cat _tmpargs${pids[i]}`"
                                exit 1
                        else
                                echo "FINISHED process ${pids[i]} args: `cat _tmpargs${pids[i]}`"
                        fi   
        fi
    done
        #update list of running pids
    pids=(${tmp[@]})
}
# set this to monitor SIGCHLD
set -o monitor
# call handle_chld() when SIGCHLD signal is triggered
trap "handle_chld" CHLD

ALL_ARGS="2 32 87" ### ad nauseam
for A in $ALL_ARGS; do
        (sleep $A; false) > _tmp$! &
        pids+=($!)
        echo $A > _tmpargs${pids[${#pids[@]}-1]}
        echo "STARTED process ${pids[${#pids[@]}-1]} args: `cat _tmpargs${pids[${#pids[@]}-1]}`"
done
echo "Every process started.  Now waiting on PIDS:"
echo ${pids[@]}
wait ${pids[@]} ###wait until every process is finished (or exit in the trap)

此版本在2 + epsilon秒后的输出为:

$ ./parallel_tests.sh 
STARTED process 66369 args: 2
STARTED process 66374 args: 32
STARTED process 66381 args: 87
Every process started.  Now waiting on PIDS:
66369 66374 66381
killing child processes of 66374
./parallel_tests.sh: line 43: 66376 Terminated: 15          sleep $A
killing child processes of 66381
./parallel_tests.sh: line 43: 66383 Terminated: 15          sleep $A
FAILED process 66369 args:  2

基本上,pid 66369首先失败,其他两个进程在陷阱中处理。我在这里简化了测试过程的构建,因此我们不能假设在生成新的测试过程之前我会手动插入wait。此外,一些测试过程几乎是即时的。从本质上讲,只要资源可以分配,我就会有大量的测试流程,无论是长期还是短期。

我不确定是什么导致了我上面提到的问题,因为这个脚本使用了一些对我来说很新的功能。一般指针欢迎!

(我看过this question但它没有回答我的问题)

1 个答案:

答案 0 :(得分:1)

cat arguments | parallel --halt now,fail=1 my_prg

可替换地:

parallel --halt now,fail=1 my_prg ::: $ALL_ARGS

GNU Parallel的设计使其也可以杀死远程作业。它使用远程服务器上的进程组和重型perl脚本来执行此操作:https://www.gnu.org/software/parallel/parallel_design.html#The-remote-system-wrapper