可能重复:
How to convert text to unicode code point like \u0054\u0068\u0069\u0073 using php?
我正在尝试将所有不符合7位ANSI字符的字符转换为转义格式\uN
,其中N
是其十进制值。以下是我的想法:
private static function escape($str) {
return preg_replace_callback('~[\\x{007F}-\\x{FFFF}]~u',function($m){return '\\u'.ord($m[0]);},$str);
}
我用Gamma等字符尝试过它,
echo self::escape('Γ');
但我得到\u206
而不是\u915
。我无法弄清楚我哪里出错...想法?
实际上,似乎ord()
函数没有给我我想要的值,或者我的.php文件中的编码可能是错误的?
答案 0 :(得分:4)
我必须在UTF-8的工作原理上刷新我的记忆,但这里有一个utf8_ord()
函数和一个补充utf8_chr()
。 chr()
几乎逐字逐句地从我的回答here中解除。
function utf8_ord ($chr)
{
$bytes = array_values(unpack('C*', $chr));
switch (count($bytes)) {
case 1:
return $bytes[0] < 0x80
? $bytes[0]
: false;
case 2:
return ($bytes[0] & 0xE0) === 0xC0 && ($bytes[1] & 0xC0) === 0x80
? (($bytes[0] & 0x1F) << 6) | ($bytes[1] & 0x3F)
: false;
case 3:
return ($bytes[0] & 0xF0) === 0xE0 && ($bytes[1] & 0xC0) === 0x80 && ($bytes[2] & 0xC0) === 0x80
? (($bytes[0] & 0x0F) << 12) | (($bytes[1] & 0x3F) << 6) | ($bytes[2] & 0x3F)
: false;
case 4:
return ($bytes[0] & 0xF8) === 0xF0 && ($bytes[1] & 0xC0) === 0x80 && ($bytes[2] & 0xC0) === 0x80 && ($bytes[3] & 0xC0) === 0x80
? (($bytes[0] & 0x07) << 18) | (($bytes[1] & 0x3F) << 12) | (($bytes[2] & 0x3F) << 6) | ($bytes[3] & 0x3F)
: false;
}
return false;
}
function utf8_chr ($ord)
{
switch (true) {
case $ord < 0x80:
return pack('C*', $ord & 0x7F);
case $ord < 0x0800:
return pack('C*', (($ord & 0x07C0) >> 6) | 0xC0, ($ord & 0x3F) | 0x80);
case $ord < 0x010000:
return pack('C*', (($ord & 0xF000) >> 12) | 0xE0, (($ord & 0x0FC0) >> 6) | 0x80, ($ord & 0x3F) | 0x80);
case $ord < 0x110000:
return pack('C*', (($ord & 0x1C0000) >> 18) | 0xF0, (($ord & 0x03F000) >> 12) | 0x80, (($ord & 0x0FC0) >> 6) | 0x80, ($ord & 0x3F) | 0x80);
}
return false;
}