我的情况是我有一个包含多个批处理文件的目录“批次”:
one.txt
two.txt
...
seventy.txt
每个文件都需要由python脚本处理:
python processor.py --inputFile=batches/one.txt
我目前的实施是这样的:
for f in batches/$f
do
python processor.py --inputFile=batches/$f
done
我有数百批,所以并行运行所有这些
python processor.py --inputFile=batches/$f &
不可行。
但是,我认为一次运行~10不应该是个问题。
我知道语法
{
python processor.py --inputFile=batches/batchOne.txt
python processor.py --inputFile=batches/batchTwo.txt
} &
{
python processor.py --inputFile=batches/batchThree.txt
python processor.py --inputFile=batches/batchFour.txt
}
应该给我一个类似于我想要的结果。但是,还有更好的解决方案吗?基本上,给定一个命令模板,在我的情况下
python processor.py --inputFile=batches/$1
批量清单,我想控制同时执行的数量。
我正在研究Ubuntu Linux。
答案 0 :(得分:0)
parallel -j 10 command_line
sudo apt-get install parallel
答案 1 :(得分:0)
parallel
是一个很棒的工具,但并不总是可以选择在系统上安装其他软件包。您可以使用bash parallel
模仿jobs
。
这是一个小例子:
#!/usr/bin/env bash
for FILE in /tmp/*.sh;
do
# count only running jobs.
JOBS=$(jobs -r | wc -l)
while [[ ${JOBS} -ge 3 ]];
do
echo "RUNNING JOBS = ${JOBS} => WAIT"
sleep 5 # too much, just for demo
done
echo "APPEND ${FILE} TO JOBS QUEUE [JOBS: ${JOBS}]"
bash ${FILE} &
done
exit 0
<强>测试强>
$ grep '' /tmp/file*.sh
/tmp/file01.sh:sleep 8
/tmp/file02.sh:sleep 10
/tmp/file03.sh:sleep 5
/tmp/file04.sh:sleep 10
/tmp/file05.sh:sleep 8
/tmp/file06.sh:sleep 8
$ ./parallel.sh
APPEND /tmp/file01.sh TO JOBS QUEUE [JOBS: 0]
APPEND /tmp/file02.sh TO JOBS QUEUE [JOBS: 1]
APPEND /tmp/file03.sh TO JOBS QUEUE [JOBS: 2]
RUNNING JOBS = 3 => WAIT
APPEND /tmp/file04.sh TO JOBS QUEUE [JOBS: 2]
RUNNING JOBS = 3 => WAIT
APPEND /tmp/file05.sh TO JOBS QUEUE [JOBS: 1]
APPEND /tmp/file06.sh TO JOBS QUEUE [JOBS: 2]