我想在R中使用gsub来匹配所有不是字母数字的项目

时间:2013-07-26 10:37:54

标签: regex r gsub

我正在使用R搜索原始的Twitter片段,但不断遇到存在非标准字母数字字符的问题,例如以下"̆ºÌøÑ"

我想使用[abcdefghijklmnopqrstuvwxyz0123456789]取出所有非gsub个字符。

您可以使用gsub[abcdefghijklmnopqrstuvwxyz0123456789]中的项指定替换吗?

1 个答案:

答案 0 :(得分:7)

您可以使用[^ ...]简单地否定您的模式:

x <- "abcde🏄fgh"
gsub("[^A-Za-z0-9]", "", x)
# [1] "abcdefgh"

请注意,课程[:alnum:]会匹配您提供的所有特殊字符。这就是gsub("[^[:alnum:]]", "", x)无效的原因。