需要通过utf-8排序单词的帮助。例如,我们有5个比利时城市。
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
sort($array); // Expected: Aubel, Borgloon, Éghezée, Lennik, Thuin
// Actual: Aubel, Borgloon, Lennik, Thuin, Éghezée
城市Éghezée应该排在第三位。是否可以使用/设置某种utf-8或创建我自己的字符顺序?
答案 0 :(得分:35)
intl与来自PHP 5.3和it only supports UTF-8的PHP捆绑在一起。
在这种情况下,您可以使用Collator:
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
$collator = new Collator('en_US');
$collator->sort($array);
print_r($array);
输出:
Array
(
[0] => Aubel
[1] => Borgloon
[2] => Éghezée
[3] => Lennik
[4] => Thuin
)
答案 1 :(得分:10)
我认为您可以使用strcoll:
setlocale(LC_COLLATE, 'nl_BE.utf8');
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
usort($array, 'strcoll');
print_r($array);
结果:
Array
(
[0] => Aubel
[1] => Borgloon
[2] => Éghezée
[3] => Lennik
[4] => Thuin
)
您的系统上需要nl_BE.utf8区域设置:
fy@Heisenberg:~$ locale -a | grep nl_BE.utf8
nl_BE.utf8
如果您使用debian,可以使用 dpkg --reconfigure locales 添加区域设置。
答案 2 :(得分:7)
此脚本应以自定义方式解析。我希望它有所帮助。注意mb_strtolower函数。您需要使用它确实使函数大小写不敏感。我没有使用strtolower函数的原因是它不适用于特殊字符。
<?php
function customSort($a, $b) {
static $charOrder = array('a', 'b', 'c', 'd', 'e', 'é',
'f', 'g', 'h', 'i', 'j',
'k', 'l', 'm', 'n', 'o',
'p', 'q', 'r', 's', 't',
'u', 'v', 'w', 'x', 'y', 'z');
$a = mb_strtolower($a);
$b = mb_strtolower($b);
for($i=0;$i<mb_strlen($a) && $i<mb_strlen($b);$i++) {
$chA = mb_substr($a, $i, 1);
$chB = mb_substr($b, $i, 1);
$valA = array_search($chA, $charOrder);
$valB = array_search($chB, $charOrder);
if($valA == $valB) continue;
if($valA > $valB) return 1;
return -1;
}
if(mb_strlen($a) == mb_strlen($b)) return 0;
if(mb_strlen($a) > mb_strlen($b)) return -1;
return 1;
}
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
usort($array, 'customSort');
编辑:抱歉。我在最后一段代码中犯了很多错误。现在已经过测试。
编辑{2}:具有多字节功能的所有内容。
答案 3 :(得分:1)
我很想在排序之前循环遍历数组并转换为英文字符。 E.g。
<?php
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
setlocale(LC_CTYPE, 'nl_BE.utf8');
$newarray = array();
foreach($array as $k => $v) {
$newarray[$k] = iconv('UTF-8', 'ASCII//TRANSLIT//IGNORE', $v);
}
sort($newarray);
print_r($newarray);
?>
在处理速度/资源方面可能不是最好的。但确实可以更容易理解代码。
修改强>
现在考虑一下,你可能会更好地使用某种查找表,如下所示:
<?php
$accentedCharacters = array ( 'à', 'á', 'â', 'ã', 'ä', 'å', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'ÿ', 'Š', 'Ž', 'š', 'ž', 'Ÿ', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý' );
$replacementCharacters = array ( 'a', 'a', 'a', 'a', 'a', 'a', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'n', 'o', 'o', 'o', 'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'y', 'S', 'Z', 's', 'z', 'Y', 'A', 'A', 'A', 'A', 'A', 'A', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'N', 'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y' );
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
$newarray = array();
foreach($array as $k => $v) {
$newarray[$k] = str_replace($accentedCharacters,$replacementCharacters,$v);
}
sort($newarray);
print_r($newarray);
?>
答案 4 :(得分:1)
至于strcoll我觉得这是一个好主意,但似乎不起作用:
<?php
// Some
$strings = array('Alpha', 'Älpha', 'Bravo');
// make it German: A, Ä, B
setlocale(LC_COLLATE, 'de_DE.UTF8', 'de.UTF8', 'de_DE.UTF-8', 'de.UTF-8');
usort($strings, 'strcoll');
var_dump($strings);
// as you can see, Ä is last, so this didn't work
前段时间我写了一个UTF-8 to ASCII工具,将“älph#bla”转换为“aelph-bla”。您可以使用它来“标准化”您的输入以使其可排序。它基本上是类似于@Nick所说的替代品。
你应该使用一个单独的数组进行排序,因为在usort()回调中调用urlify()会浪费大量资源。尝试
<?php
// data to sort
$array = array('Borgloon','Thuin','Lennik','Éghezée','Aubel');
// container for modified strings
$_array = array();
foreach ($array as $k => $v) {
// "normalize" utf8 to ascii
$_array[$k] = urlify($v);
}
// sort the ASCII stuff (while preserving indexes)
asort($_array);
foreach ($_array as $key => &$v) {
// copy the original value of the ASCIIfied element
$v = $array[$k];
}
var_dump($_array);
如果你有PHP5.3或编译的国际PECL,试试@ Thai的解决方案,看起来很可爱!
答案 5 :(得分:1)
如果您想使用本机解决方案,那么我可以提出这个
function compare($a, $b)
{
$alphabet = 'aąbcćdeęfghijklłmnnoóqprstuvwxyzźż'; // i used polish letters
$a = mb_strtolower($a);
$b = mb_strtolower($b);
for ($i = 0; $i < mb_strlen($a); $i++) {
if (mb_substr($a, $i, 1) == mb_substr($b, $i, 1)) {
continue;
}
if ($i > mb_strlen($b)) {
return 1;
}
if (mb_strpos($alphabet, mb_substr($a, $i, 1)) > mb_strpos($alphabet, mb_substr($b, $i, 1))) {
return 1;
} else {
return -1;
}
}
}
usort($needed_array, 'compare');
不确定,这是最好的解决方案,但它适用于我=)
答案 6 :(得分:1)
这里有很好的答案,但这对于大多数情况来说是一个死的简单解决方案。
function globalsort($array, $in = 'UTF-8', $out = 'ASCII//TRANSLIT//IGNORE')
{
return usort($array, function ($a, $b) use ($in, $out) {
$a = @iconv($in, $out, $a);
$b = @iconv($in, $out, $b);
return strnatcasecmp($a, $b);
});
}
并像这样使用它:
globalsort($array);