阅读this article,我希望ecmascript 6最终能够兼容UTF-8。但是,当尝试通过以下方式匹配UTF-8兼容的非单词字符时,通过向正则表达式添加u
标志:
var txt = "die küssen";
var arr = txt.split(/\W+/u);
dump(arr+"\n");
预期产出:
die,küssen
实际输出:
die,k,ssen
我也试过了单词边界:
var arr = txt.split(/\b/u);
输出:
die, ,k,ü,ssen
使用构造函数语法也无济于事:
var regexp = new RegExp(/\W+/, 'u');
var arr = txt.split(regexp);
这需要在Firefox上运行,根据this MDN page上的浏览器兼容性图表,u
标志应该有效。
我还需要做些什么吗?或者我不理解新的规范?
我希望不必诉诸something like this(或者基本上也会这样做的图书馆)。
谢天谢地......