从elisp中的字符串中删除大多数非字母字符

时间:2016-03-07 12:27:12

标签: regex elisp

我需要删除除-_

以外的字符串中的所有非字母字符和数字

许多语言的流行解决方案是使用类似这样的内容[^\\w\\-_]出于某种原因,此表达式与replace-regexp-in-string一起使用时会删除所有内容。
虽然\\W按预期删除了除字母字符和数字之外的所有内容:

(message (replace-regexp-in-string "\\W" "" "Set AA053 Лыв № foo_bar (设)"))

将输出:SetAA053Лывfoobar设

a-zA-Z0-9 无法解决我的问题,因为我需要保留非拉丁字符。

谢谢!

2 个答案:

答案 0 :(得分:2)

POSIX类是特定于语言环境的,并且根据documentation

  

‘[:alnum:]’
  这匹配任何字母或数字。 (目前,对于多字节字符,它匹配任何具有单词语法的内容。)   
  ‘[:alpha:]’
  这匹配任何字母。 (目前,对于多字节字符,它匹配任何具有单词语法的内容。)

这就是为什么要匹配任何非字母,数字或下划线/连字符的字符,您可以使用negated character class解决方案:

  

在开始方括号后键入插入符号否定字符类。结果是字符类匹配任何不在字符类中的字符

所以,是的,你可以使用

"[^[:alnum:]_-]"
 ^^           ^

或者

"[^[:alpha:][:digit:]_-]"

字符类末尾的连字符被正则表达式引擎视为文字连字符,而不是任何范围定义运算符。

如果您不关心_并想要替换它,请从字符类中删除。

答案 1 :(得分:1)

在@wiktorstribiżew的帮助下,我找到了正确的正则表达式:

[^[:alnum:]-_]

有关详细信息,请参阅Character Classes