R摆脱单引号字符

时间:2013-02-27 16:35:27

标签: regex r encoding utf

我有一个我正在尝试处理的字符串向量,但我无法摆脱一些奇怪的字符。

当我阅读csv文件时,我使用了以下行:

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")

我用这一行试图摆脱标点符号:

train$var1 <- gsub("[[:punct:]]", " ", train$var1)

然而,在运行它之后的检查中,我仍然看到奇怪的单引号,'...'和黑点像密码隐藏字符。这是输入:

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")

有关摆脱这些角色的任何建议吗?

1 个答案:

答案 0 :(得分:5)

除了一组合法字符外,您可以删除所有内容:

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)
例如,

会将不是字母数字或空白字符的每个字符更改为空格。