如何使用lwp模块从HTML源文件中获取一张表?

时间:2019-05-29 13:28:48

标签: perl lwp

我是初学者。我想知道如何使用LWP模块从源HTML文件中获取一张表吗?可以在LWP中使用Regex吗?

2 个答案:

答案 0 :(得分:2)

您可以使用LWP获取网页的HTML源。最简单的方法是使用LWP::Simple中的get()函数。

my $html = get('http://example.com/');

现在,在$html中,您有一个包含HTML的文本字符串(可能是一个很长的文本字符串)。您可以使用任何要从该字符串提取数据的技术。

提示:使用正则表达式执行此操作可能是一个非常糟糕的主意。它将比您预期的要困难得多,而且可能非常脆弱。也许使用更好的工具,例如{{ 3}}。

答案 1 :(得分:0)

use Web::Query::LibXML 'wq';

wq('https://www.december.com/html/demo/table.html')
    ->find('table th')
    ->each(sub {
        my (undef, $e) = @_;
        print $e->text . "\n";
    });
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little