使用Perl从url中提取HTML

时间:2013-07-17 09:35:48

标签: html perl twiki

我想提取TWiki的HTML代码(我有谁的URL)。这样做的最佳方式是什么?

此外,一旦我提取HTML代码,我需要在Google协作平台上托管的网站中将其删除。那可能吗?

2 个答案:

答案 0 :(得分:2)

获取HTML页面的一种非常简单的方法是LWP::Simple模块。如果您需要执行更复杂的导航流程,请使用WWW::Mechanize。然后,如果您需要解析HTML代码,@ brian解决方案就是好的。

答案 1 :(得分:1)

听起来你需要CPAN HTML::Parser模块。

use HTML::Parser ();

 # Create parser object
 $p = HTML::Parser->new( api_version => 3,
                         start_h => [\&start, "tagname, attr"],
                         end_h   => [\&end,   "tagname"],
                         marked_sections => 1,
                       );
# Parse directly from file
 $p->parse_file("foo.html");