内部字符编码的选择

时间:2013-07-15 19:36:17

标签: c++ character-encoding tokenize delimiter

我在C ++中有一个简单的tokenizer类,它将单个数组元素值视为分隔符。它会填充缓冲区,直到找到分隔符。为了支持更大的分隔符集合,包括U + 2192向右箭头'→'而不是序列“ - >”,我想使用更大的字符集。到目前为止,这是我的结论

  • UTF-8不会提供比US-ASCII更多的字符,因为tokenizer对数组元素进行操作
  • UTF-16提供了更多实际可行的特性,但它与UTF-8共享多元素编码的属性。
  • UCS-2已弃用,但本来是理想的情况
  • UCS-4从未在文件中使用
  • UTF-32与未来的UCS-4 可能多元素相同,但现在不是。

我希望源代码在Windows(UTF-16)和Linux(UTF-8)之间是跨平台的。

[编辑]

我决定在内部使用UTF-16。这支持大量符号而不使用多个元素。我也可以避免在Windows平台上进行转换。

0 个答案:

没有答案