如何在perl中简单地检索XML中具有相同名称的节点

时间:2013-09-04 14:39:58

标签: xml perl xml-simple

我有一个xml文件,我想比较来自入口节点的id和来自反应节点的id,如果和下面的例子相同,我想访问所有反应信息(基板id和产品id)。我有两个产品ID,这个代码给出了第一个 这是XML文件

<?xml version="1.0"?>
<!DOCTYPE pathway SYSTEM "http://www.kegg.jp/kegg/xml/KGML_v0.7.1_.dtd">
<!-- Creation date: May 31, 2012 14:53:24 +0900 (GMT+09:00) -->
<pathway name="path:ko00010" org="ko" number="00010" >
    <entry id="13">
    </entry>
    <entry id="37" >
    </entry>
    <reaction id="13" name="rn:R01070" type="reversible">
      <substrate id="105" name="cpd:C05378"/>
      <product id="132" name="cpd:C00118"/>
      <product id="89" name="cpd:C00111"/>
    </reaction>
</pathway>

这是我的代码

use strict;
use warnings;
use XML::Simple;

my $xml = new XML::Simple;
my $data = $xml->XMLin("file.xml");
foreach my $entry (keys %{$data->{entry}}) {
    foreach my $reaction (keys %{$data->{reaction}}) {
    if ($data->{reaction}->{id} eq $data->{entry}->{$entry}->{id} ){
        print "substrate:::$data->{reaction}->{substrate}->{id}\n";
        print "product:::$data->{reaction}->{product}->{id}\n";
    }
    }
}

1 个答案:

答案 0 :(得分:1)

XML ::简单就是简单。它自己的文档discourages further use

您可能获得的数据结构(谁知道?)在我的系统上:

{
  entry    => { 13 => {}, 37 => {} },
  name     => "path:ko00010",
  number   => "00010",
  org      => "ko",
  reaction => {
                id => 13,
                name => "rn:R01070",
                product => { "cpd:C00111" => { id => 89 }, "cpd:C00118" => { id => 132 } },
                substrate => { id => 105, name => "cpd:C05378" },
                type => "reversible",
              },
}

当您不确定是否正确访问数据结构时,最好先查看数据结构。一种方法是use Data::Dumper; print Dumper $data

您可能会注意到id中没有entry字段。此外,product没有ID字段,而是使用name属性作为名称。 *叹气* - 这种“聪明”就是你不应该使用XML :: Simple的原因。


使用像XML::LibXML这样的正确的解析器要容易得多。然后我们可以使用XPath来选择我们想要的节点:

use XML::LibXML;
use feature 'say';

my $data = XML::LibXML->load_xml(location => "test.xml");
my $query = '/pathway/reaction[/pathway/entry/@id=@id]';

if (my ($reaction) = $data->findnodes($query)) {
  say "substrate:::", $reaction->findvalue('substrate/@id');
  say "product:::", $_->textContent for $reaction->findnodes('product/@id');
}

输出:

substrate:::105
product:::132
product:::89