Question

我想提取TWiki的HTML代码（我有谁的URL）。这样做的最佳方式是什么？

此外，一旦我提取HTML代码，我需要在Google协作平台上托管的网站中将其删除。那可能吗？

Answer 1

获取HTML页面的一种非常简单的方法是LWP::Simple模块。如果您需要执行更复杂的导航流程，请使用WWW::Mechanize。然后，如果您需要解析HTML代码，@ brian解决方案就是好的。

Answer 2

听起来你需要CPAN HTML::Parser模块。

use HTML::Parser ();

 # Create parser object
 $p = HTML::Parser->new( api_version => 3,
                         start_h => [\&start, "tagname, attr"],
                         end_h   => [\&end,   "tagname"],
                         marked_sections => 1,
                       );
# Parse directly from file
 $p->parse_file("foo.html");

使用Perl从url中提取HTML

2 个答案: