ICU的整理者认为“a”和“±”是相同的

时间:2012-05-19 20:21:01

标签: internationalization collation icu

我正在使用带立陶宛语(lt_LT)语言的ICU。该语言的字母表如下:a ą b c č d e ę ė <...> v z ž

但是,在排序时,ICU的整理程序会假设,例如aąa与ogonek)相同,因此立陶宛语单词列表的排序方式如下:

a, ą, ab, aba, abadas, <...>, b, ba, <...>`

当预期结果为:

a, ab, aba, abadas, <...>, ą, <...>, b, ba, <...>

其他“重音”字母(e - ę - ėz - ž等也是如此。

更具体的测试用例:如果不是source/samples/coll/coll -locale lt_LT -source ą -target aa则运行source is less than target(如果需要,请参阅coll.cpp。)

预计会出现这种情况吗?这是一个错误还是一个功能?如果是这样,我怎样才能阻止ICU的整理者将“相似”字母对齐?

1 个答案:

答案 0 :(得分:3)

这些字母在CLDR定制中列为次要差异,因此它们将对like so进行排序。如果这是错误的,请将其提升到CLDR,而不是ICU问题。 Mimer同意。