假设我有一个充满音乐艺术家的数据库。请考虑以下艺术家:
披头士乐队 - “这个”正式名称的一部分,但如果我们按字母顺序排列,我们不想用“T”对它进行排序。我们不能轻易将其存储为“Beatles,The”,因为我们无法正确搜索它。Beyoncé - 我们需要允许用户能够搜索“Beyonce”(没有变音符号)并获得正确的结果。在搜索时,没有用户会知道如何或花时间在最后一个“e”上键入特殊的变音字符,但我们显然希望在需要输出时正确显示它。
解决这些问题的最佳方法是什么?由于绝大多数人在数据库中保留“正式名称”,“搜索名称”和“排序名称”似乎很浪费条目将完全相同,但我想不出任何其他选项。
答案 0 :(得分:2)
图书馆学家们对此有一个标准答案。 ALA备案规则以完全标准的方式涵盖所有这些案例。
你在谈论语法排序顺序。这是一个值得商榷的话题。有些人会对你的立场产生疑问。
通常,您将标题转换为标准化形式:“Beatles,The”。一般来说,你这样离开。然后排序。
您可以在此处阅读有关编目规则的信息:http://en.wikipedia.org/wiki/Library_catalog#Cataloging_rules
对于“扩展”字符,您有多种选择。对于一些人来说,é是一流的信,而变音是其中的一部分。他们不会混淆。对于其他人来说,所有变音字符都映射到朴实无华的字符上。此映射是某些Unicode处理工具的一项功能。
您可以在此处阅读有关Unicode变音符号剥离的内容:http://lexsrv3.nlm.nih.gov/SPECIALIST/Projects/lvg/current/docs/designDoc/UDF/unicode/NormOperations/stripDiacritics.html