PHP UTF-8问题 - 如果我在PHP中创建一个字符串...是UTF-8吗?

时间:2009-02-17 18:06:59

标签: php unicode utf-8

在PHP中,如果我创建一个这样的字符串:

$str = "bla bla here is my string";

那么我是否可以使用mbstring函数对该字符串进行UTF8操作?

// Will this work?
$str = mb_strlen($str); 

此外,如果我有另一个我知道的字符串是UTF-8(说它是一个POSTed表单值,或者来自数据库的UTF-8字符串),那么我可以连接这些两个没有任何问题?

// What about this, will this work? 
$str = $str . $utf8_string_from_database;

3 个答案:

答案 0 :(得分:10)

第一个问题:它取决于字符串中的确切内容。

在PHP中(无论如何最多为PHP5),字符串只是字节序列。没有与之相关的隐含或显式字符集;这是程序员必须跟踪的东西。所以,如果你只在引号之间放置有效的UTF-8字节(如果文件本身被编码为UTF-8那么相当容易),那么字符串将是UTF-8,你可以安全地使用它上面的mb_strlen()。 / p>

另外,如果你正在使用mbstring函数,你需要明确告诉它你的字符串是什么字符集,使用mbstring.internal_encoding或作为任何mbstring函数的最后一个参数。

第二个问题:是的,有警告。

两个独立有效的UTF-8字符串可以安全地按字节顺序连接(与PHP的.运算符一样)并且仍然是有效的UTF-8。但是,如果没有自己做一些工作,你永远不能确定POSTed字符串是有效的UTF-8。如果您仔细设置连接字符集,数据库字符串会更容易一些,因为大多数DBMS都会为您进行任何转换。

答案 1 :(得分:3)

如果您的源代码是UTF-8,那么字符串是UTF-8,如果不是 - 它不是。由于您的示例字符串仅为英语,因此它是有效的UTF-8。

PHP本身并不了解字符集。如果将东西传递给mb *函数,它会将其视为UTF-8字符串。

连接必须正常工作,如果我理解UTF-8正确:-)只要确保两个字符串都是UTF-8,否则你会得到奇怪的结果就是字符串。

答案 2 :(得分:2)

确保在执行任何执行之前将default_charset指令设置为UTF-8。

直接修改php.ini或在运行时使用

执行
<?php

ini_set( 'default_charset', 'UTF-8' );