Perl HTML :: TagParser读取多个标签

时间:2013-11-29 09:12:25

标签: html perl html-parsing

我有以下html文件:

  "<h3>Subject A</h3>"
  "<a href="../somedir/filename1.htm">file 1</a>"
  "<a href="../somedir2/filename2.htm">file 2</a>"

  "<h3>Subject B</h3>"
  "<a href="../somedir/filename1.htm">file 1</a>"
  "<a href="../somedir2/filename2.htm">file 2</a>"

我希望能够阅读Perl中的<a>标记以及相关的<h3>标记。

以下是使用HTML :: TagParser的示例代码。

my $url  = 'http://www.kawa.net/xp/index-e.html';
my $html = HTML::TagParser->new( $url );
my @list = $html->getElementsByTagName( "a" );
foreach my $elem ( @list ) {
    my $tagname = $elem->tagName;
    my $attr = $elem->attributes;
    my $text = $elem->innerText;
    print "<$tagname";
    foreach my $key ( sort keys %$attr ) {
        print " $key=\"$attr->{$key}\"";
    }
    if ( $text eq "" ) {
        print " />\n";
    } else {
        print ">$text</$tagname>\n";
    }
}

getElementsByTagName(“a”)将在此处{ONE}获得一个标记列表。我想找到a代码,然后找到相应的h3代码。

0 个答案:

没有答案