我正在开发一个支持单个实例中的多个语言环境的国际化数据库应用程序。当国际用户对构建在数据库之上的应用程序中的数据进行排序时,数据库理论上使用适合于与用户正在查看的数据相关联的区域设置的排序规则对数据进行排序。
我正在尝试找到符合两个标准的单词的排序列表:
我无法找到这样值得信赖的测试数据。这样的排序测试数据集目前是否可用,如果可以,它们是什么/在哪里?
“words.en.txt”是包含美国英语文本的示例文本文件:
Andrew
Brian
Chris
Zachary
我打算按照随机顺序将单词列表加载到我的数据库中,并检查列表的排序是否符合原始输入。
因为我不熟悉英语以外的任何语言,所以我不知道如何创建样本数据集,如下面的法语样本数据集(称之为“words.fr.txt”):
cote
côte
coté
côté
法国人喜欢从右到左订购变音标记。如果您使用代码点顺序对其进行排序,则可能会出现这样的情况(这是一种不正确的排序规则):
cote
coté
côte
côté
谢谢你的帮助, 克里斯
答案 0 :(得分:4)
这是我找到的。
Unicode Common Locale Data Repository(CLDR)几乎是国际文本整理的权威。我能够在ICU项目的ICU Demonstration - Locale Explorer工具中找到符合CLDR规则的几个单词列表。事实证明,ICU(Unicode的国际组件)使用CLDR规则来帮助解决常见的国际化问题。这是一个很棒的图书馆;看看吧。
在某些情况下,通过直接对CLDR规则进行逆向工程来构造一些无意义的术语很有用。美国提供的搜索引擎不适合查找我对此测试感兴趣的案例/变音/其他细微差别的外国术语(回想起来,我想知道国际搜索引擎是否更适合这项任务)。