“组合字符”和“修饰词”之间有什么区别?

时间:2019-01-30 22:57:28

标签: unicode character

在Unicode标准中,有变音标记,例如U + 0302,COMBINING CIRCUMFLEX ACCENT(◌̂)和U + 02C6,MODIFIER LETTER CIRCUMFLEX ACCENT(ˆ)。我知道组合字符会与前一个字母组合在一起,比如说制作一个像“ô”的字母,但是修饰词是做什么用的呢?仅仅是组合字符的可打印表示形式,如果是这样,与普通的U + 005E CIRCUMFLEX ACCENT(^)有什么不同?

[我对抑扬符本身不感兴趣,但对这类字符(您可以看到here似乎有很多这类字符)。]

2 个答案:

答案 0 :(得分:2)

  

“组合字符”和“修饰符”之间有什么区别   字母”?

组合字符

组合字符始终应用于前面的基本字符。这是一个取自The Unicode Standard Version 11.0 – Core Specification 5.13渲染非间距标记部分的示例,其中四个组合字符的序列应用于基本字符a

combine1

这是另一个例子。运行这个琐碎的Java代码...

System.out.println("Base character:                 \u0930");
System.out.println("Base with combining characters: \u0930\u0903\u0951");

....产生以下输出:

combine2

在这种情况下,输出比基本字符宽;组合字符中的一个放在基本字符的上方,另一个放在基本字符的右侧。

我提供了两个示例作为屏幕截图,因为很难找到一种字体来正确呈现生成的字形。

修改字母

与组合字符相比,修改字母是独立的。虽然它们通常还会修改另一个字符(通常但不一定是前一个字符),但它们本身是基本字符,并且在视觉上是不同的。要使用您的示例,以下是Java应用程序的输出,其中打印了基本字符a,后跟U + 0302,COMBINING CIRCUMFLEX ACCENT(◌̂)和U + 02C6,MODIFIER LETTER CIRCUMFLEX ACCENT(ˆ):

A 0302: Â

A 02C6: Aˆ

A”的右侧显示了MODIFIER LETTER CIRCUMFLEX ACCENT,而其上方显示了“ COMBINING CIRCUMFLEX ACCENT”。

抑扬符作为修饰字母的实际含义(语义)取决于上下文。例如,在法语中,ocôté上的抑扬音会影响其发音,而usûr上的抑扬音则不会;取而代之的是,它用于在视觉上将sûr(表示 sure )与相同发音的sur(表示 on )区别开。在法语中,o上的抑音符始终会影响发音,而在u上则不会影响发音。

  

这仅仅是   组合字符...

否-修改字母带有含义。如上所述,在法语抑扬符的情况下,可以根据其修饰的字母来根据上下文来驱动含义。但是含义可以包含在修饰字母本身内。 For example

修饰语字母通常在技术的语音转录系统中使用,在该系统中,它们会增加使用组合标记进行语音区分的功能。其中一些也已被改编成普通语言的拼字法。例如,U + 02BB修饰符转换为逗号表示夏威夷拼字法中的'okina(声门停止)。

该示例还显示,修饰字母无需与任何其他字符关联。组合字符绝不是这种情况。

还请注意,修饰语字母不一定是任何字母中的字母,并且大多数修饰语字母实际上都是符号(例如抑扬符)。

  

与普通的U + 005E CIRCUMFLEX ACCENT(^)有什么不同?

这只是用来表示抑扬音符号的字符。与组合字符和修饰符不同,它不能在语义或视觉上与任何其他字符关联。

有关更多详细信息,请参见The Unicode® Standard Version 11.0 – Core Specification中的以下部分:

  • 7.8个修饰词字母
  • 7.9组合标记

答案 1 :(得分:0)

修饰词字母不能合并。它们在语义上用作修饰符,与U + 005E这样的普通等效项不同。

https://www.unicode.org/versions/Unicode11.0.0/ch07.pdf#G15832

  

7.8个修饰符字母

     

在Unicode标准中使用的修饰语字母是通常写的字母或符号   与其他字母相邻并以某种方式修改其用法。   它们不是正式组合标记(gc = Mn或gc = Mc),并且不   以图形方式与其修改的基本字母结合在一起。他们是   基本字符本身。他们修改的意义   其他字母更多地取决于其用法的语义;他们经常   倾向于像变音符号一样工作,表明   字母的发音,或以其他方式区分字母的用法。   通常,这种变音符号适用于角色   在修饰语字母之前,但是修饰语字母有时可能   修改以下字符。有时修饰语字母可能   只是一个人就代表自己的声音。


五个U + 0302与U + 02C6与U + 005E的示例: ô̂̂̂̂ oˆˆˆˆˆo ^^^^^