我有一些带链接的输入,我想打开该链接。例如,我有一个HTML文件,想要查找文件中的所有链接,并在Excel电子表格中打开它们的内容。
答案 0 :(得分:5)
听起来你想要我的HTML::SimpleLinkExtor模块中的linktractor脚本。
您可能也对我的webreaper脚本感兴趣。很久很久以前,我写了一篇接近同样任务的文章。我真的不推荐它,因为现在其他工具要好得多,但你至少可以看一下代码。
Mojo::UserAgent对此也非常好:
use Mojo::UserAgent
print Mojo::UserAgent
->new
->get( $ARGV[0] )
->res
->dom->find( "a" )
->map( attr => "href" )
->join( "\n" );
答案 1 :(得分:1)
这听起来像是WWW::Mechanize的工作。它为获取和学习网页提供了相当高级别的界面。
一旦你阅读了这些文档,我想你会对如何去理解它有一个好主意。
答案 2 :(得分:1)
还有Web::Query:
#!/usr/bin/env perl
use 5.10.0;
use strict;
use warnings;
use Web::Query;
say for wq( shift )->find('a')->attr('href');
或者,从cli:
$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \
http://techblog.babyl.ca
答案 3 :(得分:0)
我过去曾使用URI::Find(因为文件不是HTML时)。