应用错误收集

在设备上阅读用户的联系人后，我想将它们显示在按部分分组的列表中。我这样做是从名称removing diacritical marks中提取第一个人类可读的字母，并为每个不同的字母创建一个部分。这种方法很有效，直到用户在表情符号中键入表情符号，例如：

这三个项目显示在我的笔记本电脑的联系人列表中，分组在#部分。然而，我的算法创建了两个部分，这是不可取的。我不想将任何非ASCII的内容放入#组，因为使用非拉丁字母的用户不会喜欢（日语，俄语，韩语等），但我不知道所有这些语言都让我不知道应该为他们做些什么。

如果字符应该进入这个数字#部分，或者应该创建人类可读部分字母，是否可以使用知道的表格？这是普遍适用还是与地区有关，某些国家由于文化原因以不同的方式对信件进行分组？