我需要删除除-
和_
许多语言的流行解决方案是使用类似这样的内容[^\\w\\-_]
出于某种原因,此表达式与replace-regexp-in-string
一起使用时会删除所有内容。
虽然\\W
按预期删除了除字母字符和数字之外的所有内容:
(message (replace-regexp-in-string "\\W" "" "Set AA053 Лыв № foo_bar (设)"))
将输出:SetAA053Лывfoobar设
a-zA-Z0-9
无法解决我的问题,因为我需要保留非拉丁字符。
答案 0 :(得分:2)
POSIX类是特定于语言环境的,并且根据documentation,
‘[:alnum:]’
这匹配任何字母或数字。 (目前,对于多字节字符,它匹配任何具有单词语法的内容。)
‘[:alpha:]’
这匹配任何字母。 (目前,对于多字节字符,它匹配任何具有单词语法的内容。)
这就是为什么要匹配任何非字母,数字或下划线/连字符的字符,您可以使用negated character class解决方案:
在开始方括号后键入插入符号否定字符类。结果是字符类匹配任何不在字符类中的字符。
所以,是的,你可以使用
"[^[:alnum:]_-]"
^^ ^
或者
"[^[:alpha:][:digit:]_-]"
字符类末尾的连字符被正则表达式引擎视为文字连字符,而不是任何范围定义运算符。
如果您不关心_
并想要替换它,请从字符类中删除。
答案 1 :(得分:1)