python多处理 - 单个文件多个命令

时间:2018-02-18 22:37:49

标签: python parallel-processing multiprocessing

我需要处理包含大约100个shell(bash)命令的文件;每一行都有一个单独的shell命令。我必须并行执行这些命令(例如并行10个命令或20个,让CPU决定如何并行执行)。老实说,我不知道如何完成它,所以我只在这里的某处使用了代码;以下是相同的:

range(n)

我不了解最后3行关于它实际上在做什么。我的测试运行显示{{1}}中的数字将多次执行。因此,如果数字是5,则每行执行5次。我不想要那个。请有人对此有所了解。再次请原谅我的无知。

2 个答案:

答案 0 :(得分:1)

GNU Parallel是为您而生的:

cat the_file | parallel

默认情况下,它将为每个cpu-core运行一个作业。这可以使用--jobs进行调整。

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

出于安全原因,您应该使用软件包管理器安装GNU Parallel,但如果没有为您的发行版打包GNU Parallel,则可以进行个人安装,这不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案 1 :(得分:0)

您需要的是一个队列。

使用多处理包启动一组进程。有几个例子说明了如何做到这一点。

一个巧妙的技巧是使用毒丸来确保每个队列为空时杀死每个进程。搜索本周的python模块以获取相关示例。

祝你好运。