在Unicode标准中,有变音标记,例如U + 0302,COMBINING CIRCUMFLEX ACCENT(◌̂)和U + 02C6,MODIFIER LETTER CIRCUMFLEX ACCENT(ˆ)。我知道组合字符会与前一个字母组合在一起,比如说制作一个像“ô”的字母,但是修饰词是做什么用的呢?仅仅是组合字符的可打印表示形式,如果是这样,与普通的U + 005E CIRCUMFLEX ACCENT(^)有什么不同?
[我对抑扬符本身不感兴趣,但对这类字符(您可以看到here似乎有很多这类字符)。]
答案 0 :(得分:2)
“组合字符”和“修饰符”之间有什么区别 字母”?
组合字符
组合字符始终应用于前面的基本字符。这是一个取自The Unicode Standard
Version 11.0 – Core Specification的 5.13渲染非间距标记部分的示例,其中四个组合字符的序列应用于基本字符a
:
这是另一个例子。运行这个琐碎的Java代码...
System.out.println("Base character: \u0930");
System.out.println("Base with combining characters: \u0930\u0903\u0951");
....产生以下输出:
在这种情况下,输出比基本字符宽;组合字符中的一个放在基本字符的上方,另一个放在基本字符的右侧。
我提供了两个示例作为屏幕截图,因为很难找到一种字体来正确呈现生成的字形。
修改字母
与组合字符相比,修改字母是独立的。虽然它们通常还会修改另一个字符(通常但不一定是前一个字符),但它们本身是基本字符,并且在视觉上是不同的。要使用您的示例,以下是Java应用程序的输出,其中打印了基本字符a
,后跟U + 0302,COMBINING CIRCUMFLEX ACCENT(◌̂)和U + 02C6,MODIFIER LETTER CIRCUMFLEX ACCENT(ˆ):
A 0302: Â
A 02C6: Aˆ
“ A
”的右侧显示了MODIFIER LETTER CIRCUMFLEX ACCENT,而其上方显示了“ COMBINING CIRCUMFLEX ACCENT”。
抑扬符作为修饰字母的实际含义(语义)取决于上下文。例如,在法语中,o
中côté
上的抑扬音会影响其发音,而u
中sûr
上的抑扬音则不会;取而代之的是,它用于在视觉上将sûr
(表示 sure )与相同发音的sur(表示 on )区别开。在法语中,o
上的抑音符始终会影响发音,而在u
上则不会影响发音。
这仅仅是 组合字符...
否-修改字母带有含义。如上所述,在法语抑扬符的情况下,可以根据其修饰的字母来根据上下文来驱动含义。但是含义可以包含在修饰字母本身内。 For example:
修饰语字母通常在技术的语音转录系统中使用,在该系统中,它们会增加使用组合标记进行语音区分的功能。其中一些也已被改编成普通语言的拼字法。例如,U + 02BB修饰符转换为逗号表示夏威夷拼字法中的'okina(声门停止)。
该示例还显示,修饰字母无需与任何其他字符关联。组合字符绝不是这种情况。
还请注意,修饰语字母不一定是任何字母中的字母,并且大多数修饰语字母实际上都是符号(例如抑扬符)。
与普通的U + 005E CIRCUMFLEX ACCENT(^)有什么不同?
这只是用来表示抑扬音符号的字符。与组合字符和修饰符不同,它不能在语义或视觉上与任何其他字符关联。
有关更多详细信息,请参见The Unicode® Standard Version 11.0 – Core Specification中的以下部分:
答案 1 :(得分:0)
修饰词字母不能合并。它们在语义上用作修饰符,与U + 005E这样的普通等效项不同。
https://www.unicode.org/versions/Unicode11.0.0/ch07.pdf#G15832
7.8个修饰符字母
在Unicode标准中使用的修饰语字母是通常写的字母或符号 与其他字母相邻并以某种方式修改其用法。 它们不是正式组合标记(gc = Mn或gc = Mc),并且不 以图形方式与其修改的基本字母结合在一起。他们是 基本字符本身。他们修改的意义 其他字母更多地取决于其用法的语义;他们经常 倾向于像变音符号一样工作,表明 字母的发音,或以其他方式区分字母的用法。 通常,这种变音符号适用于角色 在修饰语字母之前,但是修饰语字母有时可能 修改以下字符。有时修饰语字母可能 只是一个人就代表自己的声音。
五个U + 0302与U + 02C6与U + 005E的示例: ô̂̂̂̂ oˆˆˆˆˆo ^^^^^