Php函数UTF-8字符问题

时间:2013-09-17 08:40:34

标签: php utf-8

这是我的函数,它使句子的第一个单词的第一个字符为大写:

function sentenceCase($str)
{
    $cap = true;
    $ret = '';
    for ($x = 0; $x < strlen($str); $x++) {
        $letter = substr($str, $x, 1);
        if ($letter == "." || $letter == "!" || $letter == "?") {
            $cap = true;
        } elseif ($letter != " " && $cap == true) {
            $letter = strtoupper($letter);
            $cap = false;
        }
        $ret .= $letter;
    }
    return $ret;
}

它将“样本句子”转换为“样本句子”。问题是,它没有大写UTF-8字符。请参阅this example

我做错了什么?

1 个答案:

答案 0 :(得分:4)

使您的代码能够识别UTF-8的最简单方法是在后者出现的三种情况下使用mbstring functions而不是简单的愚蠢代码:

function sentenceCase($str)
{
    $cap = true;
    $ret = '';
    for ($x = 0; $x < mb_strlen($str); $x++) {      // mb_strlen instead
        $letter = mb_substr($str, $x, 1);           // mb_substr instead
        if ($letter == "." || $letter == "!" || $letter == "?") {
            $cap = true;
        } elseif ($letter != " " && $cap == true) {
            $letter = mb_strtoupper($letter);       // mb_strtoupper instead
            $cap = false;
        }
        $ret .= $letter;
    }
    return $ret;
}

然后,您可以配置mbstring以使用UTF-8字符串,并准备好了:

mb_internal_encoding('UTF-8');
echo sentenceCase ("üias skdfnsknka");

奖金解决方案

特别是对于UTF-8,您还可以使用正则表达式,这将导致更少的代码:

$str = "üias skdfnsknka";
echo preg_replace_callback(
    '/((?:^|[!.?])\s*)(\p{Ll})/u',
    function($match) { return $match[1].mb_strtoupper($match[2], 'UTF-8'); },
    $str);