标签: c# regex unicode utf-8 internationalization
我正在读取Unicode流,而不是必须通过正则表达式传递整个字符串。是否有一个简单(可靠)的角色可以用来打破跨语言的单词?
我的字节数组可能基于UTF-16或UTF-8
答案 0 :(得分:0)
如果您使用的是Java,则可以使用BreakIterator。