我正在尝试使用php-function preg_split将带有文本的字符串拆分为单词。
$words = preg_split('/\W/u',$text);
除瑞典语chars liteåäö外,它的工作正常。执行utf8_encode或解码也无济于事。我的猜测是preg_split只适用于单字节字符,瑞典字符是多字节的。还有其他办法吗?
答案 0 :(得分:3)
你为什么要关注特定角色?
$text = "Jag har hört så mycket om dig.";
$words = explode(" ", $text);
/*
Array
(
[0] => Jag
[1] => har
[2] => hört
[3] => så
[4] => mycket
[5] => om
[6] => dig.
)
*/
答案 1 :(得分:1)
mb_split
救援(前段时间我自己遇到了问题,刚才找到了答案:)
mb_regex_encoding('UTF-8');
mb_split('\W', $text);
HTH