Question

在PHP中，将字符串拆分为Unicode字符数组的最佳方法是什么？如果输入不一定是UTF-8？

我想知道输入字符串中的Unicode字符集是否是另一组Unicode字符的子集。

为什么不直接参加mb_系列函数，因为前几个答案没有？

Answer 1

您可以将'u'修饰符与PCRE正则表达式一起使用;见Pattern Modifiers（引用）：

  你是（PCRE8）

这个修饰符会打开另外一个   PCRE的功能是   与Perl不兼容。图案   字符串被视为UTF-8。这个   修饰符可从PHP 4.1.0获得   在Unix和PHP 4.2.3上更高或更高   在win32上。 UTF-8的有效期   从PHP 4.3.5开始检查模式。

例如，考虑这段代码：

header('Content-type: text/html; charset=UTF-8');  // So the browser doesn't make our lives harder
$str = "abc 文字化け, efg";

$results = array();
preg_match_all('/./', $str, $results);
var_dump($results[0]);

您将获得无法使用的结果：

array
  0 => string 'a' (length=1)
  1 => string 'b' (length=1)
  2 => string 'c' (length=1)
  3 => string ' ' (length=1)
  4 => string '�' (length=1)
  5 => string '�' (length=1)
  6 => string '�' (length=1)
  7 => string '�' (length=1)
  8 => string '�' (length=1)
  9 => string '�' (length=1)
  10 => string '�' (length=1)
  11 => string '�' (length=1)
  12 => string '�' (length=1)
  13 => string '�' (length=1)
  14 => string '�' (length=1)
  15 => string '�' (length=1)
  16 => string ',' (length=1)
  17 => string ' ' (length=1)
  18 => string 'e' (length=1)
  19 => string 'f' (length=1)
  20 => string 'g' (length=1)

但是，使用此代码：

header('Content-type: text/html; charset=UTF-8');  // So the browser doesn't make our lives harder
$str = "abc 文字化け, efg";

$results = array();
preg_match_all('/./u', $str, $results);
var_dump($results[0]);

（请注意正则表达式末尾的'u'）

你得到了你想要的东西：

array
  0 => string 'a' (length=1)
  1 => string 'b' (length=1)
  2 => string 'c' (length=1)
  3 => string ' ' (length=1)
  4 => string '文' (length=3)
  5 => string '字' (length=3)
  6 => string '化' (length=3)
  7 => string 'け' (length=3)
  8 => string ',' (length=1)
  9 => string ' ' (length=1)
  10 => string 'e' (length=1)
  11 => string 'f' (length=1)
  12 => string 'g' (length=1)

希望这会有所帮助： - ）

Answer 2

比preg_match_all稍微简单：

preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY)

这会返回一个1维字符数组。不需要匹配对象。

Answer 3

试试这个：

preg_match_all('/./u', $text, $array);

Answer 4

值得一提的是，自PHP 7.4起，有一个内置函数mb_str_split可以做到这一点。

$chars = mb_str_split($str);

Answer 5

如果由于某种原因，正则表达方式对你来说还不够。我曾写过Zend_Locale_UTF8被遗弃但如果你自己决定这样做可能会帮助你。

特别要看看类Zend_Locale_UTF8_PHP5_String，它读取Unicode字符串并使用它们将它们分成单个字符（显然可能由多个字节组成）。

修改：我只是认为ZF的svn浏览器已关闭，所以为了方便我复制了重要的方法：

/** * Returns the UTF-8 code sequence as an array for any given $string. * * @access protected * @param string|integer $string * @return array */ protected function _decode( $string ) { $string = (string) $string; $length = strlen($string); $sequence = array(); for ( $i=0; $i<$length; ) { $bytes = $this->_characterBytes($string, $i); $ord = $this->_ord($string, $bytes, $i); if ( $ord !== false ) $sequence[] = $ord; if ( $bytes === false ) $i++; else $i += $bytes; } return $sequence; } /** * Returns the UTF-8 code of a character. * * @see http://en.wikipedia.org/wiki/UTF-8#Description * @access protected * @param string $string * @param integer $bytes * @param integer $position * @return integer */ protected function _ord( &$string, $bytes = null, $pos=0 ) { if ( is_null($bytes) ) $bytes = $this->_characterBytes($string); if ( strlen($string) >= $bytes ) { switch ( $bytes ) { case 1: return ord($string[$pos]); break; case 2: return ( (ord($string[$pos]) & 0x1f) << 6 ) + ( (ord($string[$pos+1]) & 0x3f) ); break; case 3: return ( (ord($string[$pos]) & 0xf) << 12 ) + ( (ord($string[$pos+1]) & 0x3f) << 6 ) + ( (ord($string[$pos+2]) & 0x3f) ); break; case 4: return ( (ord($string[$pos]) & 0x7) << 18 ) + ( (ord($string[$pos+1]) & 0x3f) << 12 ) + ( (ord($string[$pos+1]) & 0x3f) << 6 ) + ( (ord($string[$pos+2]) & 0x3f) ); break; case 0: default: return false; } } return false; } /** * Returns the number of bytes of the $position-th character. * * @see http://en.wikipedia.org/wiki/UTF-8#Description * @access protected * @param string $string * @param integer $position */ protected function _characterBytes( &$string, $position = 0 ) { $char = $string[$position]; $charVal = ord($char); if ( ($charVal & 0x80) === 0 ) return 1; elseif ( ($charVal & 0xe0) === 0xc0 ) return 2; elseif ( ($charVal & 0xf0) === 0xe0 ) return 3; elseif ( ($charVal & 0xf8) === 0xf0) return 4; /* elseif ( ($charVal & 0xfe) === 0xf8 ) return 5; */ return false; }

Answer 6

function str_split_unicode($str, $l = 0) {
    if ($l > 0) {
        $ret = array();
        $len = mb_strlen($str, "UTF-8");
        for ($i = 0; $i < $len; $i += $l) {
            $ret[] = mb_substr($str, $i, $l, "UTF-8");
        }
        return $ret;
    }
    return preg_split("//u", $str, -1, PREG_SPLIT_NO_EMPTY);
}
var_dump(str_split_unicode("لأآأئؤة"));

输出：

array (size=7)
  0 => string 'ل' (length=2)
  1 => string 'أ' (length=2)
  2 => string 'آ' (length=2)
  3 => string 'أ' (length=2)
  4 => string 'ئ' (length=2)
  5 => string 'ؤ' (length=2)
  6 => string 'ة' (length=2)

有关更多信息：http://php.net/manual/en/function.str-split.php

Answer 7

我能够使用mb_*编写一个解决方案，包括一次UTF-16之旅，并回到可能是愚蠢的尝试来加速字符串索引：

$japanese2 = mb_convert_encoding($japanese, "UTF-16", "UTF-8");
$length = mb_strlen($japanese2, "UTF-16");
for($i=0; $i<$length; $i++) {
    $char = mb_substr($japanese2, $i, 1, "UTF-16");
    $utf8 = mb_convert_encoding($char, "UTF-8", "UTF-16");
    print $utf8 . "\n";
}

我最好避免mb_internal_encoding，并在每次mb_*来电时指定所有内容。我相信我最终会使用preg解决方案。

Answer 8

分割长度的最佳方式：我刚刚更改了laravel str_limit()函数：

    public static function split_text($text, $limit = 100, $end = '')
{
    $width=mb_strwidth($text, 'UTF-8');
    if ($width <= $limit) {
        return $text;
    }
    $res=[];
    for($i=0;$i<=$width;$i=$i+$limit){
        $res[]=rtrim(mb_strimwidth($text, $i, $limit, '', 'UTF-8')).$end;
    }
     return $res;
}

在PHP中将字符串拆分为Unicode字符数组的最佳方法是什么？

8 个答案: