如何修改perl脚本以使用多个处理器?

时间:2010-12-13 14:01:06

标签: linux multithreading perl file multiprocessor

您好我有一个简单的脚本,它接受一个文件并在其上运行另一个Perl脚本。该脚本对当前文件夹中的每个图片文件执行此操作。这是在一台配备2个四核Xeon处理器,16GB内存,运行RedHat Linux的机器上运行的。

第一个脚本work.pl基本上调用magicplate.pl传递一些参数和magicplate.pl文件的名称来处理。 Magic Plate需要大约一分钟来处理每个图像。因为work.pl正在执行相同的功能超过100次,并且因为系统有多个处理器和核心,所以我正在考虑将任务拆分,以便它可以并行运行多次。如有必要,我可以将图像分割到不同的文件夹。任何帮助都会很棒。谢谢

这是我到目前为止所做的:

use strict;
use warnings;


my @initialImages = <*>;

foreach my $file (@initialImages) {

    if($file =~ /.png/){
        print "processing $file...\n";
        my @tmp=split(/\./,$file);
        my $name="";
        for(my $i=0;$i<(@tmp-1);$i++) {
            if($name eq "") { $name = $tmp[$i]; } else { $name=$name.".".$tmp[$i];}
        }

        my $exten=$tmp[(@tmp-1)];
        my $orig=$name.".".$exten;

        system("perl magicPlate.pl -i ".$orig." -min 4 -max 160 -d 1");
     }
}       

3 个答案:

答案 0 :(得分:7)

你应该考虑不为你要处理的每个文件创建一个新进程 - 它的效率非常低,而且可能是你花费大部分时间在这里的。只是加载Perl和你一遍又一遍使用的任何模块应该会产生一些开销。我记得PerlMonks上的一张海报做了类似的事情,并最终将他的第二个脚本转换为模块,将工作时间从一小时减少到几个分钟。并不是说你应该期待如此显着的进步,但人们可以梦想......

将第二个脚本重构为模块here's an example of thread usage,其中BrowserUK创建一个线程池,通过队列为其提供作业。

答案 1 :(得分:3)

您可以使用Parallel :: ForkManager(将$ MAX_PROCESSES设置为同时处理的文件数):

use Parallel::ForkManager;
use strict;
use warnings;

my @initialImages = <*>;

foreach my $file (@initialImages) {

    if($file =~ /.png/){
        print "processing $file...\n";
        my @tmp=split(/\./,$file);
        my $name="";
        for(my $i=0;$i<(@tmp-1);$i++) {
            if($name eq "") { $name = $tmp[$i]; } else { $name=$name.".".$tmp[$i];}
        }

        my $exten=$tmp[(@tmp-1)];
        my $orig=$name.".".$exten;

  $pm = new Parallel::ForkManager($MAX_PROCESSES);
    my $pid = $pm->start and next;
        system("perl magicPlate.pl -i ".$orig." -min 4 -max 160 -d 1");
    $pm->finish; # Terminates the child process

     }
}       

但正如Hugmeir所建议的那样,为每个新文件一次又一次地运行perl解释器并不是一个好主意。

答案 2 :(得分:3)

  • 导入“maigcplate”并使用线程。
  • 在后台启动magicplate.pl(您需要添加进程限制)
  • 导入“magicplate”并使用fork(添加进程限制和kiddy收割者)
  • 使“maigcplate”成为一个守护进程,其中包含一个工作池= CPU数量
    • 使用MQ实现进行通信
    • 使用套接字进行通信
  • 使用webserver(nginx,apache,...)并在REST中包装以获取Web服务
  • 等...

所有这些都围绕创建多个工作人员,每个人都可以在自己的cpu上运行。某些实现将更好地使用资源(那些不启动新进程的资源)并且更易于实现和维护。