代表变音符的这种疯狂的德语字符组合是什么?

时间:2018-11-04 14:44:40

标签: text encoding diacritics

我只是解析以下website

找到文字

und wären damit auch

起初,“ä”看起来很好,但是一旦我检查了一下,结果发现它不是常规的“ä”(表示为ascw 228),而是:

ascw: 97, char: a
ascw: 776, char: ¨

我从未见过如此表示的“ä”。

网站怎么会使用这种奇怪的字符组合,以及从中获得的好处是什么?

1 个答案:

答案 0 :(得分:2)

您在问题中没有提及的是使用的编码。很明显,它是基于Unicode的编码。

在Unicode中,代码点U + 0308(十进制776)为combining diaeresis。在字母a和变音符的基础上,创建了德语字符ä

确实有两种方法用变音符号来表示德语字符(本例中为ä)。作为单个代码点:

U+00E4 latin small letter A with diaeresis

或作为两个代码点的序列:

U+0041 latin small letter A
U+0308 combining diaeresis

在大多数情况下,Unicode使用两个代码点,因为它需要更少的代码点才能使用变音符号显示各种字符。但是,由于历史原因,存在带有德国变音符号和法语重音的字母的特殊代码点。

Unicode库是大多数编程语言提供的功能,它们可以标准化字符串,即在可能的情况下将所有序列转换为单个代码点,或者将所有单个代码点扩展为两个代码点序列。另请参见Unicode Normalization Forms