标签: c++ character-encoding tokenize delimiter
我在C ++中有一个简单的tokenizer类,它将单个数组元素值视为分隔符。它会填充缓冲区,直到找到分隔符。为了支持更大的分隔符集合,包括U + 2192向右箭头'→'而不是序列“ - >”,我想使用更大的字符集。到目前为止,这是我的结论
我希望源代码在Windows(UTF-16)和Linux(UTF-8)之间是跨平台的。
[编辑]
我决定在内部使用UTF-16。这支持大量符号而不使用多个元素。我也可以避免在Windows平台上进行转换。