拉丁字符有问题,这是代码:
$stopWords = array('i','a','about','an','and','are','as','at','be','by','com','de','en','for','from','how','in','is','it','la','of','on','or','that','the','this','to','was','what','when','where','who','will','with','und','the','www', 'on', 'ona', 'ja');
$string = preg_replace('/\s\s+/i', '', $string); // replace whitespace
$string = trim($string); // trim the string
$string = preg_replace('/[^a-zA-Z0-9žšđč掊ĐČĆ -]/', '', $string); // only take alphanumerical characters, but keep the spaces and dashes too…
$string = mb_strtolower($string); // make it lowercase
preg_match_all('/\b.*?\b/i', $string, $matchWords);
$matchWords = $matchWords[0];
foreach ( $matchWords as $key=>$item ) {
if ( $item == '' || in_array(strtolower($item), $stopWords) || strlen($item) <= 3 ) {
unset($matchWords[$key]);
}
}
$wordCountArr = array();
if ( is_array($matchWords) ) {
foreach ( $matchWords as $key => $val ) {
$val = strtolower($val);
if ( isset($wordCountArr[$val]) ) {
$wordCountArr[$val]++;
} else {
$wordCountArr[$val] = 1;
}
}
}
arsort($wordCountArr);
$wordCountArr = array_slice($wordCountArr, 0, 10);
return $wordCountArr;
当我从此代码返回$matchWords[0]
时:
preg_match_all('/\b.*?\b/i', $string, $matchWords);
我在数组中得到了这个带有内爆空间的字符串:
ti si mi znaj na srcu kvar znaj znaj znajsrcužurrka
ž urka
答案 0 :(得分:2)
来自文档: 单词边界是主题字符串中当前字符和前一个字符不匹配\ w或\ W(即一个匹配\ w而另一个匹配\ W),或者开头或结尾的位置如果第一个或最后一个字符分别与\ w匹配,则为字符串。
ž(包括前面的空格)与 \ W 相匹配,但是你匹配 \ w ,因此你会得到ž
和{{ 1}}
最后的这些字符与模式不匹配:
urka
...它们都是 \ W 字符,需要后跟 \ w 字符才能匹配模式(第二个 \ b 强>)
我猜你正在寻找u-modifier。 试试
žšđčć ŽŠĐČĆ :)