Perl或Bash线程池脚本?

时间:2011-07-05 09:01:05

标签: multithreading perl bash threadpool

我有一个脚本 - 一个线性的命令列表 - 需要很长时间才能顺序运行。我想创建一个实用程序脚本(Perl,Bash或其他可用于Cygwin),它可以读取任何线性脚本中的命令,并将它们分配给可配置数量的并行工作程序。

所以如果myscript

command1
command2
command3

我可以跑:

threadpool -n 2 myscript

将创建两个主题,一个从command1开始,另一个command2。无论哪个线程首先完成其第一个作业,都将运行command3

在潜入Perl之前(已经很长时间了)我想我应该问专家这样的事情是否已经存在。我确信应该有这样的东西,因为它对于利用多CPU机器和并行网络传输(wgetscp)都非常有用。我想我不知道正确的搜索条件。谢谢!

5 个答案:

答案 0 :(得分:4)

如果您需要输出不要混淆(xargs -P冒险),那么您可以使用GNU Parallel:

parallel -j2 ::: command1 command2 command3

或者命令是否在文件中:

cat file | parallel -j2

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

如果没有为您的发行版打包GNU Parallel,您可以进行个人安装,不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案 1 :(得分:3)

在Perl中,您可以使用Parallel::ForkManager执行此操作:

#!/usr/bin/perl

use strict;
use warnings;
use Parallel::ForkManager;
my $pm = Parallel::ForkManager->new( 8 ); # number of jobs to run in parallel

open FILE, "<commands.txt" or die $!;
while ( my $cmd = <FILE> ) {
    $pm->start and next;
    system( $cmd );
    $pm->finish;
}
close FILE or die $!;

$pm->wait_all_children;

答案 2 :(得分:1)

有xjobs可以更好地分离单个作业输出然后xargs -P。

http://www.maier-komor.de/xjobs.html

答案 3 :(得分:0)

您也可以使用makeHere是关于如何创造性地使用它的非常有趣的文章

答案 4 :(得分:0)

来源:http://coldattic.info/shvedsky/pro/blogs/a-foo-walks-into-a-bar/posts/7

# That's commands.txt file
echo Hello world
echo Goodbye world
echo Goodbye cruel world

cat commands.txt | xargs -I CMD --max-procs = 3 bash -c CMD