我是初学者。我想知道如何使用LWP模块从源HTML文件中获取一张表吗?可以在LWP中使用Regex吗?
答案 0 :(得分:2)
您可以使用LWP获取网页的HTML源。最简单的方法是使用LWP::Simple中的get()
函数。
my $html = get('http://example.com/');
现在,在$html
中,您有一个包含HTML的文本字符串(可能是一个很长的文本字符串)。您可以使用任何要从该字符串提取数据的技术。
(提示:使用正则表达式执行此操作可能是一个非常糟糕的主意。它将比您预期的要困难得多,而且可能非常脆弱。也许使用更好的工具,例如{{ 3}}。
答案 1 :(得分:0)
use Web::Query::LibXML 'wq';
wq('https://www.december.com/html/demo/table.html')
->find('table th')
->each(sub {
my (undef, $e) = @_;
print $e->text . "\n";
});
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little