python - 从python（或bash）部分并行运行外部命令

从python（或bash）部分并行运行外部命令

时间：2016-04-19 11:08:07

标签： python bash parallel-processing subprocess

我正在运行一个python脚本，它创建一个命令列表，这些命令应由编译程序（专有）执行。

程序kan将一些计算拆分为独立运行，之后将收集数据。

我想并行运行这些计算，因为每个都是一个非常耗时的单线程任务，我有16个核心可用。

我正在使用子进程来执行命令（在Class环境中）：

def run_local(self):
    p = Popen(["someExecutable"], stdout=PIPE, stdin=PIPE)
    p.stdin.write(self.exec_string)
    p.stdin.flush()
    while(p.poll() is not none):
        line = p.stdout.readline()
        self.log(line)

其中self.exec_string是所有命令的字符串。

此字符串可分为：初始部分，我想要并行化的部分和完成部分。

我应该怎么做？

此外，似乎可执行文件将会挂起＆＃34; （等待命令，例如。＆＃34;退出＆＃34;这将释放内存）如果每个部分使用当前方法的天真复制粘贴。

奖励：如果更容易/可以并行化bash，可执行文件还可以选择运行命令的bash脚本吗？

2 个答案:

答案 0 :(得分：1)

对于bash，它可能非常简单。假设您的文件如下所示：

## init part##
ls
cd ..
ls
cat some_file.txt

## parallel ##
heavycalc &
heavycalc &
heavycalc &

## finish ##
wait
cat results.txt

命令后面有&，告诉bash在后台线程中运行此命令。然后wait将等待所有后台线程完成，因此您可以确定所有计算都已完成。

我假设你的输入txt文件是普通的bash命令。

答案 1 :(得分：1)

使用GNU Parallel：

## init
cd foo
cp bar baz

## parallel ##
parallel heavycalc ::: file1 file2 file3 > results.txt

## finish ##
cat results.txt

GNU Parallel是一个通用的并行程序，可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。它通常可以替换for循环。

如果要在4个CPU上运行32个不同的作业，并行化的直接方法是在每个CPU上运行8个作业：

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态，从而节省时间：

GNU Parallel scheduling

<强>安装

如果没有为您的发行版打包GNU Parallel，您可以进行个人安装，不需要root访问权限。这可以在10秒内完成：

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项，请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例：http://www.gnu.org/software/parallel/man.html

观看介绍视频：https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程：http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持：https://lists.gnu.org/mailman/listinfo/parallel