我的脚本工作正常,但我很困惑为什么我必须使用utf8_decode()

时间:2012-03-22 19:06:21

标签: php mysql diacritics utf8-decode

我对utf8_decode()的行为感到困惑,只想稍微澄清一下。我希望没问题。

这是一个简单的HTML表单,我用来捕获一些文本并将其保存到我的MySQL数据库(使用utf8_general_ci排序规则):

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<form action="update.php" method="post" accept-charset="utf-8"> 
<p> 
    Title: <input type="text" name="title" id="title" accept-charset="utf-8" size="75" value="" /> 
</p> 
<p> 
    <input type="submit" name="submit" value="Submit" /> 
</p> 
</form>
</body>
</html>

正如你所看到的,我在适当的地方用charset = utf8编码了这个。我们接受包含变音符号的文本(例如,ñ,ó等)。最后,我们在所有文本输入上运行一个小脚本来检查变音符号并将它们更改为HTML实体(例如,ñ变成&amp; ntilde;)。

当我的脚本收到输入时,我首先必须执行utf8_decode($ input),然后运行我的小脚本来检查并根据需要更改变音符号。一切正常。我很好奇为什么我必须在这个输入上运行解码。据我所知,utf8_decode将以UTF-8编码的字符串转换为ISO-8859-1。我想确保 - ,即使一切正常(或者我认为) - 我不会做一些棘手的东西,以后会赶上我。例如,我发送的ISO-8859-1编码字符存储在我的数据库中,该数据库设置为存储/提供UTF-8字符。我应该在我的diacritics-to-entities脚本返回的字符串上运行utf8_encode()吗?例如:

$string = utf8_decode($string);
$search = explode(",","À,È,Ì,Ò,Ù,à,è,ì,ò,ù,Á,É,Í,Ó,Ú,Ý,á,é,í,ó,ú,ý,Â,Ê,Î,Ô,Û,â,ê,î,ô,û,Ã,Ñ,Õ,ã,ñ,õ,Ä,Ë,Ï,Ö,Ü,Ÿ,ä,ë,ï,ö,ü,ÿ,Å,å,Æ,æ,ß,Þ,þ,ç,Ç,Œ,œ,Ð,ð,Ø,ø,§,Š,š,µ,¢,£,¥,€,¤,ƒ,¡,¿");
$replace = explode(",","&Agrave;,&Egrave;,&Igrave;,&Ograve;,&Ugrave;,&agrave;,&egrave;,&igrave;,&ograve;,&ugrave;,&Aacute;,&Eacute;,&Iacute;,&Oacute;,&Uacute;,&Yacute;,&aacute;,&eacute;,&iacute;,&oacute;,&uacute;,&yacute;,&Acirc;,&Ecirc;,&Icirc;,&Ocirc;,&Ucirc;,&acirc;,&ecirc;,&icirc;,&ocirc;,&ucirc;,&Atilde;,Ntilde;,&Otilde;,&atilde;,&ntilde;,&otilde;,&Auml;,&Euml;,&Iuml;,&Ouml;,&Uuml;,&Yuml;,&auml;,&euml;,&iuml;,&ouml;,&uuml;,&yuml;,&Aring;,&aring;,&AElig;,&aelig;,&szlig;,&THORN;,&thorn;,&ccedil;,&Ccedil;,&OElig;,&oelig;,&ETH;,&eth;,&Oslash;,&oslash;,&sect;,&Scaron;,&scaron;,&micro;&cent;,&pound;,&yen;,&euro;,&curren;,&fnof;,&iexcl;,&iquest;");
$new_input = str_replace($search, $replace, $string);
return utf8_encode($new_input); // right now i just return $new_input.

欣赏任何人对此提供的任何见解。

3 个答案:

答案 0 :(得分:1)

不要使用“accept-charset”。它坏了。大多数浏览器已停止在自己的http请求中发送它。有些浏览器(IE)在解析表单时完全忽略了这个属性,而其他浏览器(IE)使用它完成了非常有限的工作。在实践中,“接受字符集”的弊大于利。

惯例是浏览器将以与收到表单相同的编码发送数据。因此请确保您的页面以UTF-8格式发送。 HTML中的元标记是不够的。对于PHP页面,此设置可以在3个位置设置:

  • “head”中的HTML代码<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  • Apache配置中的AddDefautCharset UTF8行(或其他Web服务器中的任何类似行)。
  • header("Content-type=text/html; charset=utf-8");的PHP调用(在页面上显示任何内容之前)。

每个指令都会覆盖以前的指令。因此,如果您的服务器已经声明了一个字符集,那么您的元标记将被忽略。

所以你应该:

  • 当然,请确保您的源文件是UTF-8。
  • 修复您的HTML源代码,使其在W3C验证。例如,您的元标记应该在XHTML中关闭。
  • 删除“accept-charset”属性。
  • 最后,在Apache中使用PHP header()强制编码声明。
  • 在浏览器中确保从服务器收到的HTTP标头声明了正确的编码(如果依赖元标记,则不进行编码)。在Linux上curl -I <URL>仅显示HTTP标头。

答案 1 :(得分:0)

当提交带有accept-charset =“utf-8”的表单时,浏览器将表单数据以用utf-8编码的ISO-8859-1字符发送到服务器。 utf8_decode将编码数据bact转换为严格的ISO-8859-1。例如,如果您提交“ñ”,则utf-8编码将向您的表单操作提交“%F1”,然后必须将其转换回“ñ”以使您的脚本正常工作。

答案 2 :(得分:0)

所以会让页面显示要在utf-8中显示的文本,但是即使你使用accept-charset =“utf-8”将它切换到utf8,服务器也会将它音乐化为iso-8859-1然后当它显示然后再从iso-8859-1转换为utf-8,但能够转换一个utf-8唯一的字符,所以它最终显示一个奇怪的字符,每次你循环这个过程它会变得更糟更糟糕的是,我发现即使你在html端做了一切,也没有办法在服务器上切换它来读取utf-8,所以你不能把所有东西都切换到utf-8 。这是关于阿帕奇,如果有一种我想知道的方式。