更新

Question

我必须编写一个脚本来并行获取一些URL并做一些工作。在过去，我一直使用Parallel::ForkManager来处理这类事情，但现在我想学习新内容并尝试使用AnyEvent（以及AnyEvent::HTTP或AnyEvent::Curl::Multi）进行异步编程。但是我在理解AnyEvent时遇到了问题并编写了一个脚本：

打开一个文件（每一行都是一个单独的URL）
（从现在起并行，但有10个并发请求的限制）
逐行读取文件（我不想将整个文件加载到内存中 - 它可能很大）
为该网址发出HTTP请求
阅读回复
相应地更新MySQL记录
（下一个文件行）

我已经阅读了很多手册和教程，但我仍然很难理解阻塞和非阻塞代码之间的差异。我在http://perlmaven.com/fetching-several-web-pages-in-parallel-using-anyevent找到了类似的脚本，Szabo先生解释了基础知识，但我仍然无法理解如何实现以下内容：

...
open my $fh, "<", $file;
while ( my $line = <$fh> )
{
# http request, read response, update MySQL
}
close $fh
...

...并在这种情况下添加并发限制。

我非常感谢你的帮助;）

更新

按照Ikegami的建议，我试试了Net::Curl::Multi。我对结果非常满意。使用Parallel::ForkManager多年来只是为了同时抓取数千个网址，Net::Curl::Multi似乎很棒。这是我的代码，文件句柄上有while循环。它似乎应该工作，但考虑到这是我第一次写这样的东西，我想请更有经验的Perl用户看一看，告诉我是否有一些潜在的错误，我错过了什么等等。另外，如果我可能会问：因为我不完全理解Net::Curl::Multi的并发性如何工作，请告诉我是否应该将MySQL UPDATE命令（通过DBI）置于{{{ 1}}循环（除了显着更高的服务器负载 - 我希望最终脚本与大约50个并发RESPONSE工作者一起运行，可能更多）。

N::C::M

Answer 1

Net :: Curl是一个非常好的库，非常快。此外，它也可以处理并行请求！我建议使用它而不是AnyEvent。

use Net::Curl::Easy  qw( :constants );
use Net::Curl::Multi qw( );

sub make_request {
    my ( $url ) = @_;
    my $easy = Net::Curl::Easy->new();
    $easy->{url} = $url;
    $easy->setopt( CURLOPT_URL,        $url );
    $easy->setopt( CURLOPT_HEADERDATA, \$easy->{head} );
    $easy->setopt( CURLOPT_FILE,       \$easy->{body} );
    return $easy;
}

my $max_running = 10;
my @urls = ( 'http://www.google.com/' );

my $multi = Net::Curl::Multi->new();
my $running = 0;
while (1) {
    while ( @urls && $running < $max_running ) {
       my $easy = make_request( shift( @urls ) );
       $multi->add_handle( $easy );
       ++$running;
    }

    last if !$running;

    my ( $r, $w, $e ) = $multi->fdset();
    my $timeout = $multi->timeout();
    select( $r, $w, $e, $timeout / 1000 )
        if $timeout > 0;

    $running = $multi->perform();
    while ( my ( $msg, $easy, $result ) = $multi->info_read() ) {
        $multi->remove_handle( $easy );
        printf( "%s getting %s\n", $easy->getinfo( CURLINFO_RESPONSE_CODE ), $easy->{url} );
    }
}

Answer 2

这是以异步的方式完成你想要的，它通过以安全的方式包装Net::Curl来实现：

#!/usr/bin/env perl

package MyDownloader;
use strict;
use warnings qw(all);

use Moo;

extends 'YADA::Worker';

has '+use_stats'=> (default => sub { 1 });
has '+retry'    => (default => sub { 10 });

after init => sub {
    my ($self) = @_;

    $self->setopt(
        encoding            => '',
        verbose             => 1,
    );
};

after finish => sub {
    my ($self, $result) = @_;

    if ($self->has_error) {
        print "ERROR: $result\n";
    } else {
        # do the interesting stuff here
        printf "Finished downloading %s: %d bytes\n", $self->final_url, length ${$self->data};
    }
};

around has_error => sub {
    my $orig = shift;
    my $self = shift;

    return 1 if $self->$orig(@_);
    return 1 if $self->getinfo('response_code') =~ m{^5[0-9]{2}$}x;
};

1;

package main;
use strict;
use warnings qw(all);

use Carp;

use YADA;

my $q = YADA->new(
    max     => 8,
    timeout => 30,
);

open(my $fh, '<', 'file_with_urls_per_line.txt')
    or croak "can't open queue: $!";
while (my $url = <$fh>) {
    chomp $url;

    $q->append(sub {
        MyDownloader->new($url)
    });
}
close $fh;
$q->wait;

在特定示例

更新

2 个答案: