Question

我是初学者。我想知道如何使用LWP模块从源HTML文件中获取一张表吗？可以在LWP中使用Regex吗？

Answer 1

您可以使用LWP获取网页的HTML源。最简单的方法是使用LWP::Simple中的get()函数。

my $html = get('http://example.com/');

现在，在$html中，您有一个包含HTML的文本字符串（可能是一个很长的文本字符串）。您可以使用任何要从该字符串提取数据的技术。

（提示：使用正则表达式执行此操作可能是一个非常糟糕的主意。它将比您预期的要困难得多，而且可能非常脆弱。也许使用更好的工具，例如{{ 3}}。

Answer 2

use Web::Query::LibXML 'wq';

wq('https://www.december.com/html/demo/table.html')
    ->find('table th')
    ->each(sub {
        my (undef, $e) = @_;
        print $e->text . "\n";
    });
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little

如何使用lwp模块从HTML源文件中获取一张表？

2 个答案: