在MSVC上将utf-16转换为utf-32非常简单 - 使用C11的 codecvt_utf16 语言环境方面。但是在GCC(gcc(Debian 4.7.2-5)4.7.2)中,这个新功能似乎还没有实现。有没有办法在没有iconv的情况下在Linux上执行这种转换(最好使用std库的转换工具)?
答案 0 :(得分:8)
将UTF-16解码为UTF-32非常容易。
您可能希望在编译时检测您正在使用的libc版本,并在检测到损坏的libc(没有您需要的功能)时部署转换例程。
输入:
char16_t *
,ushort *
, - 为方便起见UTF16 *
); char32_t *
,uint *
- 为方便起见UTF32 *
)。代码如下:
void convert_utf16_to_utf32(const UTF16 *input,
size_t input_size,
UTF32 *output)
{
const UTF16 * const end = input + input_size;
while (input < end) {
const UTF16 uc = *input++;
if (!is_surrogate(uc)) {
*output++ = uc;
} else {
if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input))
*output++ = surrogate_to_utf32(uc, *input++);
else
// ERROR
}
}
}
留下错误处理。您可能希望在流中插入U+FFFD
¹继续前进,或者只是拯救,真的由您自己决定。辅助功能很简单:
int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; }
int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; }
int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; }
UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) {
return (high << 10) + low - 0x35fdc00;
}
¹Cf。的Unicode:
²还要考虑到!is_surrogate(uc)
分支是最常见的(以及第二个if中的非错误路径),您可能希望使用__builtin_expect
或类似的优化它。 / p>