Perl LibXML和多个名称空间

时间:2014-01-07 15:08:40

标签: xml perl xml-parsing namespaces libxml2

我有一个问题,我可以肯定会使用一些帮助。首先,要温柔。我是perl和LibXML的新手。我一直在解析文档并将元素放入一个数组中,然后将其写入电子表格列。在测试期间,发现一些节点具有多个同名的子节点。我需要将每个子节点的文本合并到数组的一个元素中。 xml的格式为:

<Group id="V-3021"
  xmlns="http://checklists.nist.gov/xccdf/1.1"
  xmlns:dc="http://purl.org/dc/elements/1.1">
    <title>blah blah blah</title>
    <description>blah blah blah</description>
    <Rule id="SV-41507r1_rule" severity="medium" weight="10.0">
        <version>blah blah blah</version>
        <title>blah blah blah</title>
        <description>blah blah blah</description>
        <reference>
            <dc:title>blah blah blah</dc:title>
            <dc:publisher>blah blah blahO</dc:publisher>
            <dc:type>blah blah blah</dc:type>
            <dc:subject>blah blah blah</dc:subject>
            <dc:identifier>blah blah blah</dc:identifier>
        </reference>
        <fixtext fixref="F-3046r3_fix">blah blah blah</fixtext>
        <check system="C-39986r2_chk">
            <check-content-ref name="M" href="VMS_XCCDF_Benchmark_Network - Firewall -   Cisco.xml"/>
            <check-content>This is the text I want</check-content>
        </check>
    </Rule>
</Group>

但偶尔会是这样的:

<Group id="V-3021"
  xmlns="http://checklists.nist.gov/xccdf/1.1"
  xmlns:dc="http://purl.org/dc/elements/1.1">
    <title>blah blah blah</title>
    <description>blah blah blah</description>
    <Rule id="SV-41507r1_rule" severity="medium" weight="10.0">
        <version>blah blah blah</version>
        <title>blah blah blah</title>
        <description>blah blah blah</description>
        <reference>
            <dc:title>blah blah blah</dc:title>
            <dc:publisher>blah blah blahO</dc:publisher>
            <dc:type>blah blah blah</dc:type>
            <dc:subject>blah blah blah</dc:subject>
            <dc:identifier>blah blah blah</dc:identifier>
        </reference>
        <fixtext fixref="F-3046r3_fix">blah blah blah</fixtext>
        <check system="C-39986r2_chk">
            <check-content-ref name="M" href="VMS_XCCDF_Benchmark_Network - Firewall - Cisco.xml"/>
            <check-content>This is the text I want</check-content>
            <check-content>This is more text that I wantto grab and add to the end of                           the above text
            </check-content>
        </check>
    </Rule>
</Group>

我可以从“check-contents”中提取所有文本,但是如果有多个文本,它会抛弃电子表格中的数据行。我需要能够说出这样的话:如果有2个或更多连接数据则推入阵列。如果没有,只需将数据推入阵列即可。现在这里是摩擦的来源。我试图将所有内容拉到“规则”下面,然后解析每个部分(到)并从每个XML部分中拉出“检查内容”。通过这样做,我应该能够在将数据推入数组之前将两个“检查内容”部分连接在一起。问题是在“引用”节点(dc :)下声明了一个名称空间。我已经尝试注册这个命名空间没有运气。我实际上根本不关心那部分数据,但是当我尝试拉出这一部分(to)时,我收到一条错误消息,指出“:1:命名空间错误:标题上的命名空间前缀dc未定义s&gt; ECAT -1,ECAT-2,ECSC-1

my $parser = XML::LibXML->new() or die $!;
my $doc1 = $parser->parse_file($filename1);
my $xc1 = XML::LibXML::XPathContext->new($doc1->documentElement() );
$xc1->registerNs(x => 'http://checklists.nist.gov/xccdf/1.1');
$xc1->registerNs(dc => 'http://purl.org/dc/elements/1.1');


for $Check ( $xc1->findnodes('//x:Rule') ) { 

    my $doc2 = $parser->parse_string($Check); # Associate the NS with $Check
    my $xc2 = XML::LibXML::XPathContext->new($doc2->documentElement());
    $xc2->registerNs(x => 'http://checklists.nist.gov/xccdf/1.1');


    foreach $Check_Content ( $xc2->findvalue('check-content') ) { 

         push (@Check_Content1, $Check_Content);

         }


    $result_string = $Check_Content1[0] . $Check_Content1[1];
    push (@Check_Content, $result_string);
    }
}

1 个答案:

答案 0 :(得分:1)

在代码的第10行,您要求XML :: LibXML解析$Check,这意味着您要求XML :: LibXML解析以下内容:

<Rule id="SV-41507r1_rule" severity="medium" weight="10.0">
    <version>blah blah blah</version>
    <title>blah blah blah</title>
    <description>blah blah blah</description>
    <reference>
        <dc:title>blah blah blah</dc:title>
        <dc:publisher>blah blah blahO</dc:publisher>
        <dc:type>blah blah blah</dc:type>
        <dc:subject>blah blah blah</dc:subject>
        <dc:identifier>blah blah blah</dc:identifier>
    </reference>
    <fixtext fixref="F-3046r3_fix">blah blah blah</fixtext>
    <check system="C-39986r2_chk">
        <check-content-ref name="M" href="VMS_XCCDF_Benchmark_Network - Firewall - Cisco.xml"/>
        <check-content>This is the text I want</check-content>
        <check-content>This is more text that I wantto grab and add to the end of                           the above text
        </check-content>
    </check>
</Rule>

这不是格式良好的XML文档,因为它没有定义dc

所有这一切都是为了构建第二个不必要的XPC。这可以通过砍掉大量代码来解决。

my $parser = XML::LibXML->new();
my $doc = $parser->parse_file($filename);
my $xpc = XML::LibXML::XPathContext->new( $doc->documentElement() );
$xpc->registerNs(x  => 'http://checklists.nist.gov/xccdf/1.1');
$xpc->registerNs(dc => 'http://purl.org/dc/elements/1.1');

my $check_content;
for my $rule_node ( $xpc->findnodes('//x:Rule') ) { 
   for my $check_content_node (
         $xpc->findnodes('x:check/x:check-content', $rule_node) ) { 
      $check_content .= $check_content_node->textContent();
   }
}

注意第二个arg为$xpc->findnodes

使用数组没有多大意义,所以我没有。如果有意义,您可以随时将$check_content放入数组中。

当然,以下内容也可能是您的选择:

my $check_content;
for my $rule_node ( $xpc->findnodes('//x:Rule/x:check/x:check-content') ) { 
   $check_content .= $check_content_node->textContent();
}