PHP htmlentities并以xml格式保存数据

时间:2012-09-08 12:03:52

标签: php xml save html-entities html-encode

我尝试使用以下PHP脚本将一些数据保存到xml文件中:

<?php

$string = '<a href="google.com/maps">Go to google maps</a> and some special characters ë è & ä etc.';

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

$doc = new DOMDocument('1.0', 'UTF-8');
$doc->preserveWhiteSpace = false;
$doc->formatOutput = true;

$root = $doc->createElement('top');
$root = $doc->appendChild($root);

$title = $doc->createElement('title');
$title = $root->appendChild($title);

$id = $doc->createAttribute('id');
$id->value = '1';
$text = $title->appendChild($id);

$text = $doc->createTextNode($string);
$text = $title->appendChild($text);

$doc->save('data.xml');

echo 'data saved!';

?>

我正在使用htmlentities将所有字符串翻译成html格式,如果我把它留下来,特殊字符将不会被翻译成html格式。这是输出:

<?xml version="1.0" encoding="UTF-8"?>
<top>
  <title id="1">&amp;lt;a href=&amp;quot;google.com/maps&amp;quot;&amp;gt;Go to google maps&amp;lt;/a&amp;gt; and some special characters &amp;euml; &amp;egrave; &amp;amp; &amp;auml; etc.</title>
</top>

html标签的&符号获得双html代码:&amp;lt;和&符号变为:&amp;amp;

这是正常行为吗?或者我该如何防止这种情况发生?看起来像是双重编码。

3 个答案:

答案 0 :(得分:3)

尝试删除该行:

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

因为传递给createTextNode()的文本无论如何都是转义的。

更新: 如果你想转义utf-8字符。您可以保留该行并尝试直接在createElement()中添加$ string。

例如:

$title = $doc->createElement('title', $string);
$title = $root->appendChild($title);

在PHP documentation中,它表示$ string不会被转义。我没试过,但它应该有用。

答案 1 :(得分:2)

&变为&amp; htmlentities 使用xml数据时,不应使用htmlentities,因为DOMDocument将处理&而不是&amp;

从php 5.3开始,默认编码为UTF-8,因此无需转换为UTF-8。

答案 2 :(得分:2)

这一行:

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

...将字符串编码为HTML。

这一行:

$text = $doc->createTextNode($string);

...将您的HTML字符串编码为XML。

这为您提供了HTML字符串的XML表示形式。在解析XML时,您将获得HTML。

  

如何防止这种情况发生?

如果您的目标是将某些文本存储在XML文档中。删除将其编码为HTML的行。

  

看起来像是双重编码。

差不多。它被编码两次,它只为两个传递中的每一个使用不同的(虽然非常相似)编码方法。