什么是AA和丹麦整理?

时间:2013-03-06 21:02:37

标签: perl multilingual collation

我有以下Perl脚本,旨在显示丹麦语的排序规则。

#!/usr/local/ActivePerl-5.16/bin/perl

use 5.014_001;
use utf8;
use Unicode::Collate;
use strict;
use warnings;
use Carp;
use Data::Dump;
use Encode qw( encode_utf8 );
use Unicode::Collate::Locale;


binmode STDOUT, ':encoding(UTF-8)';

my @words =("AAI Document Type", "Apple", "Zebra");

my $coll = Unicode::Collate::Locale->new(locale => "da");

my @result = $coll->sort(@words);


foreach my $item (@result){
print $item, "\n";
}

输出

Apple
Zebra
AAI Document Type

为什么“AAI文件类型”走到了尽头?似乎有一些关于“AA”的东西会触发这种行为。

1 个答案:

答案 0 :(得分:4)

AA被视为丹麦语中的单个字母,也写为Å

详情here

显然,在AAI这样的缩写中,将AA视为Å是不合适的(它实际上是两个A个字符)。我想避免这种情况的方法是使用不同的排序规则。