剥离CData标签XML Perl

时间:2016-04-24 20:00:35

标签: xml perl cdata

在PHP中,您可以通过执行以下操作简单地剥离XML中的CDATA标记:

simplexml_load_string($string, 'SimpleXMLElement', LIBXML_NOCDATA);

我想知道如何使用XML::Bare或任何其他模块在Perl中执行此操作?

我的客户倾向于发送这样的xml:

<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>

使用XML :: Bare我会像这样解析它:

$string = "<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>";
$strXML = XML::Bare->new('text' => $string)->parse;
say $strXML->{msg}->{body}->{login}->{nick}->{value};

并且它可以工作,但我想剥离cdata标签以防止在我的服务器中注入sql。有谁知道我怎么能这样做?我已经在网上搜索了一个解决方案,并且无法找到解决方案。

2 个答案:

答案 0 :(得分:2)

例如以下内容:

use 5.014;
use warnings;
use XML::LibXML;

#the input xml
my $str = q{<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>};

#the parsing
my $dom = XML::LibXML->load_xml(
    string => $str,
    no_cdata => 1,  #strip CDATA
);

#nice-print the parsed xml
say $dom->toString(2);

#print the "nick" and pword
say "the nick  is ==", $dom->find( '//nick' )->string_value, "==";
say "the pword is ==", $dom->find( '//pword' )->string_value, "==";

打印没有CDATA的原始XML,例如:

<?xml version="1.0"?>
<msg t="sys">
  <body action="login" r="0">
    <login z="w1">
      <nick>Test</nick>
      <pword>4c24a5558542bf35cca54d8749c78de6</pword>
    </login>
  </body>
</msg>

the nick  is ==Test==
the pword is ==4c24a5558542bf35cca54d8749c78de6==

答案 1 :(得分:1)

您可以尝试使用HTML::Parser,如下所示:

#!/usr/bin/env perl
use strict;
use warnings;

use HTML::Parser;

my $xml = <<XML;
<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>
XML

my $parsed_xml;

HTML::Parser->new(default_h => [ sub { $parsed_xml .= shift }, 'text' ],
    xml_mode => 1,
    marked_sections => 1,
  )->parse($xml) or die $!;

print $parsed_xml;

marked_sections参数会导致解析器将CDATA部分的内容作为text返回,然后将其连接到$parsed_xml变量。