如何使用Perl从HTML文件中提取链接?

时间:2009-05-27 11:17:01

标签: perl excel

我有一些带链接的输入,我想打开该链接。例如,我有一个HTML文件,想要查找文件中的所有链接,并在Excel电子表格中打开它们的内容。

4 个答案:

答案 0 :(得分:5)

听起来你想要我的HTML::SimpleLinkExtor模块中的linktractor脚本。

您可能也对我的webreaper脚本感兴趣。很久很久以前,我写了一篇接近同样任务的文章。我真的不推荐它,因为现在其他工具要好得多,但你至少可以看一下代码。

CPANGoogle是您的朋友。 :)

Mojo::UserAgent对此也非常好:

use Mojo::UserAgent

print Mojo::UserAgent
    ->new
    ->get( $ARGV[0] )
    ->res
    ->dom->find( "a" )
    ->map( attr => "href" )
    ->join( "\n" );

答案 1 :(得分:1)

这听起来像是WWW::Mechanize的工作。它为获取和学习网页提供了相当高级别的界面。

一旦你阅读了这些文档,我想你会对如何去理解它有一个好主意。

答案 2 :(得分:1)

还有Web::Query

#!/usr/bin/env perl 

use 5.10.0;

use strict;
use warnings;

use Web::Query;

say for wq( shift )->find('a')->attr('href');

或者,从cli:

$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \
       http://techblog.babyl.ca

答案 3 :(得分:0)

我过去曾使用URI::Find(因为文件不是HTML时)。