php-script输出xml文件,但会打破特殊字符

时间:2011-12-09 15:39:52

标签: php xml

我创建了这个php脚本,从我的数据库创建一个xml文件:

<?php
header("Content-type: text/xml");
header("Expires: Mon, 26 Jul 1990 05:00:00 GMT");
header("Last-Modified: " . gmdate("D, d M Y H:i:s") . " GMT");
header("Cache-Control: no-store, no-cache, must-revalidate");
header("Cache-Control: post-check=0, pre-check=0", false);
header("Pragma: no-cache");

$host = "localhost";
$user = "root";
$pass = "root";
$database = "flexapp";

$charToReplace = array("é", "è", "ê");
$charReplacements = array("e", "e", "e");

$linkID = mysql_connect($host, $user, $pass) or die("Could not connect to host.");
mysql_select_db($database, $linkID) or die("Could not find database.");

$query = "SELECT * FROM artists";
$artist_result = mysql_query($query, $linkID) or die("Data not found.");

$xml_output = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n";
$xml_output .= "<artists>\n";

for($x = 0 ; $x < mysql_num_rows($artist_result) ; $x++){
    $itemrow = mysql_fetch_assoc($artist_result);
    $xml_output .= "\t<artist>\n";
    $xml_output .= "\t\t<id>" . $itemrow['pk_artist_id'] . "</id>\n";
    $itemrow['artist_name'] = str_replace($charToReplace, $charReplacements,         $itemrow['artist_name']);
    $xml_output .= "\t\t<name>" . $itemrow['artist_name'] . "</name>\n";
    $xml_output .= "\t\t<picture>" . $itemrow['artist_pic'] . "</picture>\n";
    $xml_output .= "\t\t<twitter>" . $itemrow['artist_twitter'] . "</twitter>\n";
    $xml_output .= "\t</artist>\n";
}
$xml_output .= "</artists>\n";
echo $xml_output;
?>

我尝试将éenê等字符替换为e。

但是它在浏览器中出现了这个错误:

This page contains the following errors:

error on line 23 at column 9: Encoding error

这是输出的xml:

<?xml version="1.0" encoding="UTF-8"?>
<artists>
<artist>
    <id>1155</id>
    <name>Have Heart</name>
    <picture>http://userserve-ak.last.fm/serve/126/29086375.jpg</picture>
    <twitter></twitter>
</artist>
<artist>
    <id>1156</id>
    <name>Dead Swans</name>
    <picture>http://userserve-ak.last.fm/serve/126/4781939.jpg</picture>
    <twitter></twitter>
</artist>
<artist>
    <id>1157</id>
    <name>Nirvana</name>
    <picture>http://userserve-ak.last.fm/serve/126/3991355.jpg</picture>
    <twitter></twitter>
</artist>
<artist>
    <id>1158</id>
    <name>Touchter>
</artist>

但最后一个(数据库中的名字是TouchéAmoré)应该和剩下的一样,但不知何故,字符串没有被替换。

4 个答案:

答案 0 :(得分:3)

这可能是在打印前对数据进行编码的问题。尝试使用utf8_encode()htmlentities()

function xmlencode($data) {
    $data = utf8_encode($data);
    $data = htmlentities($data);
    return $data;
}

然后

...
$xml_output .= "\t\t<picture>" . xmlencode($itemrow['artist_pic']) . "</picture>\n";
...

答案 1 :(得分:0)

为什么不用CDATA包装名称变量,如

header('Content-Type: text/xml, charset=utf-8');

<name><![CDATA[Some very wired name]]></name>

而且,如果我是你,那么我将使用SimpleXML来生成XML。

答案 2 :(得分:0)

我猜这些字符被保存为实体,这就是为什么它不会替换并“破坏”你的XML输出。

您的脚本就像这里的魅力一样,并按预期输出。如果保存的值包含é而不是é,您会通过phpmyadmin检查数据库吗?在这种情况下,您应首先将实体解码为它们所代表的字符:http://php.net/manual/en/function.html-entity-decode.php

答案 3 :(得分:0)

如果您的数据库是在utf-8中,并且您的XML文件是在utf-8中;你不应该对é。

等“外国”字符进行任何转换

首先,确保您的数据库表存储在utf-8中,然后将您的XML文件修复为utf-8 ......

header("Cache-Control: post-check=0, pre-check=0", false);
header("Pragma: no-cache");
header("Content-type:text/xml;charset=utf-8"); //  <- add this line

下一步 - 确保您的MySQL连接器正在utf-8中检索数据库中的utf-8数据(默认情况下不会)。

$linkID = mysql_connect($host, $user, $pass) or die("Could not connect to host.");
mysql_select_db($database, $linkID) or die("Could not find database.");
mysql_set_charset("UTF8"); //  <-- add this line; NOTE MySQL doesn't use the hyphen in the utf-8 string

理论上,所有é,ê和ñ(等等)字符正确显示在XML文档中,无需任何转换或CDATA解析。

您需要转换的唯一字符是IIRC,与htmlspecialchars转换的字符相同,即<>&和(可选)引号和撇号。< / p>