我想提取TWiki的HTML代码(我有谁的URL)。这样做的最佳方式是什么?
此外,一旦我提取HTML代码,我需要在Google协作平台上托管的网站中将其删除。那可能吗?
答案 0 :(得分:2)
获取HTML页面的一种非常简单的方法是LWP::Simple模块。如果您需要执行更复杂的导航流程,请使用WWW::Mechanize。然后,如果您需要解析HTML代码,@ brian解决方案就是好的。
答案 1 :(得分:1)
听起来你需要CPAN HTML::Parser模块。
use HTML::Parser ();
# Create parser object
$p = HTML::Parser->new( api_version => 3,
start_h => [\&start, "tagname, attr"],
end_h => [\&end, "tagname"],
marked_sections => 1,
);
# Parse directly from file
$p->parse_file("foo.html");