也许这不是问题,但我期待收集到的SO的智慧来帮助我找到答案。
我们正在努力确保各种平台的编码保持一致。要走的路显然是UTF8。然而,一些平台不幸使用扩展的ASCII(通常是某种形式的Windows代码页),我们担心当用Windows代码页到UTF8编码某些变音符号时,UTF8中有多种可能的选择。< / p>
在另一个平台(Linux,Mac OS)上,我们如何确保在那里选择的UTF8字符是否一致?
正如我所说,也许这不是问题。也许有一些我不知道的标准映射。我们没有看到任何问题,但是一位同事刚刚提出了这个问题,所以我正在寻找信息。
提前谢谢大家。
答案 0 :(得分:1)
只要您首先将原始文本正确地转换为Unicode,而不是使用Utf8存储/传输数据,就应该没有问题。
答案 1 :(得分:1)
Unicode Consortium编译了一组mapping tables。名义上是信息性的,它们构成了事实上的标准。此外,那里的许多映射都反映了正式标准,因为根据Unicode定义任何新的字符编码已经变得很正常,即通过指定每个字符的Unicode编号(和/或Unicode名称)。
一旦将字符映射到Unicode(即Unicode代码点或Unicode编号),就会明确定义每个Unicode编码中的编码,例如UTF-8。
所以问题是如何确保您使用的转换例程根据这些表工作。在这方面使用ICU可以被认为是安全的。
P.S。没有扩展的ASCII。有各种字符编码,其中一些与ASCII在0到0x7F的范围内重合,有些则没有。