Question

我的情况是我有一个包含多个批处理文件的目录“批次”：

one.txt
two.txt
...
seventy.txt

每个文件都需要由python脚本处理：

python processor.py --inputFile=batches/one.txt

我目前的实施是这样的：

for f in batches/$f
do
python processor.py --inputFile=batches/$f
done

我有数百批，所以并行运行所有这些

python processor.py --inputFile=batches/$f &

不可行。

但是，我认为一次运行~10不应该是个问题。

我知道语法

{
python processor.py --inputFile=batches/batchOne.txt
python processor.py --inputFile=batches/batchTwo.txt
} &
{
python processor.py --inputFile=batches/batchThree.txt
python processor.py --inputFile=batches/batchFour.txt
}

应该给我一个类似于我想要的结果。但是，还有更好的解决方案吗？基本上，给定一个命令模板，在我的情况下

python processor.py --inputFile=batches/$1

批量清单，我想控制同时执行的数量。

我正在研究Ubuntu Linux。

Answer 1

尝试执行此操作以执行10 //执行：

parallel -j 10 command_line

安装它

sudo apt-get install parallel

Answer 2

parallel是一个很棒的工具，但并不总是可以选择在系统上安装其他软件包。您可以使用bash parallel模仿jobs。

这是一个小例子：

#!/usr/bin/env bash

for FILE in /tmp/*.sh;
do
    # count only running jobs. 
    JOBS=$(jobs -r | wc -l)
    while [[ ${JOBS} -ge 3 ]];
    do
        echo "RUNNING JOBS = ${JOBS} => WAIT"
        sleep 5 # too much, just for demo
    done
    echo "APPEND ${FILE} TO JOBS QUEUE [JOBS: ${JOBS}]"
    bash ${FILE} &
done

exit 0

<强>测试

$ grep '' /tmp/file*.sh
/tmp/file01.sh:sleep 8
/tmp/file02.sh:sleep 10
/tmp/file03.sh:sleep 5
/tmp/file04.sh:sleep 10
/tmp/file05.sh:sleep 8
/tmp/file06.sh:sleep 8

$ ./parallel.sh
APPEND /tmp/file01.sh TO JOBS QUEUE [JOBS: 0]
APPEND /tmp/file02.sh TO JOBS QUEUE [JOBS: 1]
APPEND /tmp/file03.sh TO JOBS QUEUE [JOBS: 2]
RUNNING JOBS = 3 => WAIT
APPEND /tmp/file04.sh TO JOBS QUEUE [JOBS: 2]
RUNNING JOBS = 3 => WAIT
APPEND /tmp/file05.sh TO JOBS QUEUE [JOBS: 1]
APPEND /tmp/file06.sh TO JOBS QUEUE [JOBS: 2]

在bash中运行并行命令

2 个答案:

尝试执行此操作以执行10 //执行：

安装它