正确处理UTF8字符串连接

时间:2016-07-01 15:38:39

标签: unicode

我刚学会了it's OK for a Unicode string to contain isolated combining characters

这引发了另一个问题,相对于以这些字符开头的字符串的连接。

我正在开发一个UTF8String对象,以便更轻松地处理UTF-8字符串。

此对象具有concat()方法,该方法将另一个字符串连接到当前字符串。

如果第二个字符串以组合字符开头,应该在两个字符串之间添加一个不间断的空格,以避免将先前隔离的第二个字符串的第一个字符组合到最后一个字符第一个字符串?

或者预计会发生这种组合吗?

1 个答案:

答案 0 :(得分:2)

  

我正在开发一个UTF8String对象,以便更容易地处理UTF-8字符串。 [...]我应该在两个字符串之间添加一个不间断的空格吗?

我绝对不会说。处理像UTF-8这样的字节编码是一个单独的,低级别的问题,而不是处理字形边界。将这两个问题混合在一起将是意外的,不受欢迎的分层违规。

如果你想构建一个字符串类,将字形集合视为不可分割的单位,那就好了,但这是一个不同的动物(并且需要做很多工作)。