我有一个代码,想要在其中用 Javascript 拆分(使用String.split( regex ))德语句子(我启动程序并阅读文字通过 regex 在 Node.js 中)。我的问题是ä,ö,ü和ß。所有这些都应该用\ W识别,而不应该被识别。(当前,用\ W,“früh”变成[fr,h],应该变成[früh]) 我想将文本拆分为非文本角色,但不拆分为ä,ö,ü和ß。 我尝试过:
\s|\d //which does't capture parentheses or equals
\W //where I can't not capture German special caracters
和其他。
我是否必须手动过滤掉要拆分的每个角色?
语法应为:
“我是tr ä ing =去,做ß吗?s” => [我,am,tr ä到,做,ß,s]
编辑:维克多·史翠比夫帮助了我
str.split(/ [^ \ p {L} \ p {N} _] + / u与Node 10+一起使用