使用XMLin解析嵌套XML

时间:2015-05-16 22:45:33

标签: xml perl parsing nested

我花了几个小时试图弄清楚如何使用XMLin理解这个嵌套的XML,但没有运气。我也试过这个网站上的例子;如何通过lca-data传递并迭代前缀?

Dumper输出在这里:http://pastebin.com/a4N8AtX1

简单代码:

$url = "http://www.localcallingguide.com/xmllocalprefix.php?npa=514&nxx=307";
$xml = new XML::Simple;
$data = $xml->XMLin(&getURL($url), ForceArray => [qw( lca-data prefix )]);

print Dumper( $data );

foreach $e (@{$data->{prefix}}) {
  print STDERR $e->{npa} . "\n";
}

没有输出......

提前致谢米尔

1 个答案:

答案 0 :(得分:0)

首先 - 真的 - 阅读XML::Simple的联机帮助页。特别要注意说:

  

不鼓励在新代码中使用此模块。其他模块可用,提供更直接和一致的接口。

另外 - 不要在子程序调用前使用& - 一般来说这是个坏主意 - 有一些非常具体的理由要使用它们,而这不是一个。

您应该始终使用strictwarnings,尤其是在发布代码供其他人查看时。

鉴于您的任务似乎是将每个npa元素输出到STDERR我建议您可以这样处理 - 使用XML::Twig代替XML::Simple

#!/usr/bin/local/perl
use warnings;
use strict;

use LWP::Simple;
use XML::Twig;

my $url =
    'http://www.localcallingguide.com/xmllocalprefix.php?npa=514&nxx=307';

my $twig = XML::Twig->new(
    'twig_handlers' => {
        'npa' => sub { print STDERR $_->text, "\n"; }
    }
);
$twig->parse( get($url) );

在每个npa子元素上设置一个'触发器'处理程序并打印它 - 它会在解析XML时执行此操作,这意味着您可以执行一些非常巧妙的技巧,例如在解析时修改它(例如删除或移动元素)。

如果你想简单地迭代一个元素,那么你可以这样做 - 这具有不使用大量内存的好处,因为XML 可以。 (XML :: Twig有purge,允许您丢弃任何已处理的XML。)

否则,有'children'或'get_xpath'选项:

my $twig = XML::Twig->new()->parse( get($url) );
foreach
    my $prefix ( $twig->root->first_child('lca-data')->children('prefix') )
{
    print $prefix ->first_child_text('npa'), "\n";
}

### alternatively:

foreach my $prefix ( $twig->root->get_xpath('./lca-data/prefix') ) {
    print $prefix ->first_child_text('npa'), "\n";
}

如果您想使用子程序来处理和清除,您可以这样做:

sub process_prefix {
    my ( $twig, $prefix ) = @_;
    print $prefix ->first_child_text('npa'), "\n";
    $twig->purge;    #clears already parsed data - good if your XML is large!
}

my $url =
    'http://www.localcallingguide.com/xmllocalprefix.php?npa=514&nxx=307';

my $twig =
    XML::Twig->new( 'twig_handlers' => { 'prefix' => \&process_prefix } )
    ->parse( get($url) );

使用解析器进行XML解析已经做得很好。但是,请查看XML::TwigXML::LibXML而不是XML::Simple - 它们都是更好的工具。 (XML::Twig甚至还有simpify方法,如果您确实需要它来向后兼容,那么它几乎可以复制XML::Simple

但问题的解决方案是:

foreach $e (@{ $data->{'lca-data'}[0]{'prefix'} } {