我正在使用R搜索原始的Twitter片段,但不断遇到存在非标准字母数字字符的问题,例如以下"̆ºÌøÑ"
。
我想使用[abcdefghijklmnopqrstuvwxyz0123456789]
取出所有非gsub
个字符。
您可以使用gsub
为[abcdefghijklmnopqrstuvwxyz0123456789]
中的不项指定替换吗?
答案 0 :(得分:7)
您可以使用[^ ...]
简单地否定您的模式:
x <- "abcde🏄fgh"
gsub("[^A-Za-z0-9]", "", x)
# [1] "abcdefgh"
请注意,课程[:alnum:]
会匹配您提供的所有特殊字符。这就是gsub("[^[:alnum:]]", "", x)
无效的原因。