如何检查HTML元素是一个结束节点?

时间:2011-10-30 17:57:27

标签: perl screen-scraping web-scraping

我正在Perl中构建一个HTML解析器。我想知道HTML元素是否是一个没有任何sibilings的元素。

这是HTML,我想解析:

<span class="bold1">A:</span> ELementA<br />
<span class="bold1">B:</span> <a href="mailto:admin" class="bold1">mailto:admin</a><br />
<span class="bold1">C </span> 01/12<br />
<span class="bold1">D:</span> ELementC<br />
<span class="bold1">E:</span> ElementD<br />
<span class="bold1">F:</span> ElementE<br />

如何检查元素是否为结束元素。

我收到错误:

Can't call method "as_text" without a package or object reference at 

知道可能出现什么问题吗?

以下是Perl中的代码段

my $mech = WWW::Mechanize->new( autocheck => 1 );

eval 
{
    $mech->get($url);
};
if ($@) 
{
    print "Error connecting to URL $url \n";
    exit(0);
}

my $root = HTML::TreeBuilder->new_from_content(decode_utf8($mech->content));

my @PageSections = $root->look_down( 
            sub { 
                return (
                ($_[0]->tag() eq 'span' ) and 
                ($_[0]->attr('class')  =~ m/bold1/i) )

            }); 

my $temp2;
my $temp3;

for my $ps (@PageSections)
{
    #  my $temp1= $ps->right()->as_text;
    $temp2= $ps->as_text;

    my $temp3=ref $ps->right();
    # 
    print defined $temp3 ? "defined \n" : "not defined\n";
}

由于

1 个答案:

答案 0 :(得分:1)

在不知道更多代码的情况下很难分辨,但我猜@PageSections包含一些家庭酿造模块的对象,并且那里发生了一些事情让$ _指向完全不同的东西。我会去

for my $ps (@PageSections)
{
    my $temp1= $ps->right()->as_text;
    my $temp2= $ps->as_text;
    print "$temp2  " . $temp1 . " \n";
}

代替。