function seems_utf8($str) {
$length = strlen($str);
for ($i=0; $i < $length; $i++) {
$c = ord($str[$i]);
if ($c < 0x80) $n = 0; # 0bbbbbbb
elseif (($c & 0xE0) == 0xC0) $n=1; # 110bbbbb
elseif (($c & 0xF0) == 0xE0) $n=2; # 1110bbbb
elseif (($c & 0xF8) == 0xF0) $n=3; # 11110bbb
elseif (($c & 0xFC) == 0xF8) $n=4; # 111110bb
elseif (($c & 0xFE) == 0xFC) $n=5; # 1111110b
else return false; # Does not match any model
for ($j=0; $j<$n; $j++) { # n bytes matching 10bbbbbb follow ?
if ((++$i == $length) || ((ord($str[$i]) & 0xC0) != 0x80))
return false;
}
}
return true;
}
我从Wordpress获得了这个代码,我对此并不了解,但我想知道该功能究竟是什么。
如果有人知道请帮助我吗?
我需要清楚了解上面的代码。如果逐行解释会更有帮助。
答案 0 :(得分:9)
我使用两种方法来检查字符串是否为utf-8(取决于具体情况):
mb_internal_encoding('UTF-8'); // always needed before mb_ functions, check note below
if (mb_strlen($string) != strlen($string)) {
/// not single byte
}
- 或 -
if (preg_match('!\S!u', $string)) {
// utf8
}
对于mb_internal_encoding - 由于我的一些未知错误在php(版本5.3-(尚未在5.3上测试))将编码作为参数传递给mb_函数不起作用,内部编码需要在使用mb_函数之前设置。
答案 1 :(得分:7)
该算法基本上是检查字节序列是否符合您在Wikipedia article中可以看到的模式。
for
循环将遍历$str
中的所有字节。 ord
获取当前字节的十进制数。然后测试该数字的某些属性。
如果数字小于128(0x80),则为单字节字符。如果它等于或大于128,则检查多字节字符的长度。这可以通过多字节字符序列的第一个字符来完成。如果第一个字节以110xxxxx
开头,那么它是一个双字节字符; 1110xxxx
,它是一个三字节字符等。
我认为最隐秘的部分是像($c & 0xE0) == 0xC0
这样的表达式。那是检查二进制格式的数字是否具有某种特定模式。我将尝试解释它在同一个例子中是如何工作的。
由于我们为该模式测试的所有数字都等于或大于0x80,因此第一个字节始终为1,因此模式至少被限制为1xxxxxxxx
。如果我们然后与11100000
(0xE0)进行逐位比较,我们得到这个结果:
1xxxxxxx
& 11100000
= 1xx00000
因此位置5和6的位(从右侧读取,索引从0开始)取决于我们当前的数字。要使其等于11000000
,第5位必须为0
,第6位必须为1
:
1xxxxxxx
& 11100000
≟ 11000000
↓↓
→ 110xxxxx
这意味着我们号码的其他位可以是任意的:110xxxxx
。而这正是维基百科文章中的模式预测的两个字节字符的第一个字节。
最后,内部for
循环用于检查多字节字符的后续字节的完整性。这些都必须以10xxxxxx
开头。
答案 2 :(得分:7)
如果您对UTF-8了解一点,那么这是一个非常简单的实现。
function seems_utf8($str) {
# get length, for utf8 this means bytes and not characters
$length = strlen($str);
# we need to check each byte in the string
for ($i=0; $i < $length; $i++) {
# get the byte code 0-255 of the i-th byte
$c = ord($str[$i]);
# utf8 characters can take 1-6 bytes, how much
# exactly is decoded in the first character if
# it has a character code >= 128 (highest bit set).
# For all <= 127 the ASCII is the same as UTF8.
# The number of bytes per character is stored in
# the highest bits of the first byte of the UTF8
# character. The bit pattern that must be matched
# for the different length are shown as comment.
#
# So $n will hold the number of additonal characters
if ($c < 0x80) $n = 0; # 0bbbbbbb
elseif (($c & 0xE0) == 0xC0) $n=1; # 110bbbbb
elseif (($c & 0xF0) == 0xE0) $n=2; # 1110bbbb
elseif (($c & 0xF8) == 0xF0) $n=3; # 11110bbb
elseif (($c & 0xFC) == 0xF8) $n=4; # 111110bb
elseif (($c & 0xFE) == 0xFC) $n=5; # 1111110b
else return false; # Does not match any model
# the code now checks the following additional bytes
# First in the if checks that the byte is really inside the
# string and running over the string end.
# The second just check that the highest two bits of all
# additonal bytes are always 1 and 0 (hexadecimal 0x80)
# which is a requirement for all additional UTF-8 bytes
for ($j=0; $j<$n; $j++) { # n bytes matching 10bbbbbb follow ?
if ((++$i == $length) || ((ord($str[$i]) & 0xC0) != 0x80))
return false;
}
}
return true;
}
顺便说一下。在PHP上我假设这比C函数慢50-100倍,所以你不应该在长字符串和生产系统上使用它。
答案 3 :(得分:0)
偶然发现这篇文章,有类似的问题.. mb_detect_encoding显示utf-8,但mb_check_encoding返回false ...
修复它,对我来说解决方案是:
$cur_encoding = mb_detect_encoding($in_str) ;
if($cur_encoding == "UTF-8" && mb_check_encoding($in_str,"UTF-8"))
return $in_str;
else
return utf8_encode($in_str);
sry无法正确发布链接....