我有一个我正在尝试处理的字符串向量,但我无法摆脱一些奇怪的字符。
当我阅读csv文件时,我使用了以下行:
train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")
我用这一行试图摆脱标点符号:
train$var1 <- gsub("[[:punct:]]", " ", train$var1)
然而,在运行它之后的检查中,我仍然看到奇怪的单引号,'...'和黑点像密码隐藏字符。这是输入:
dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as",
"<U+25CF>")
有关摆脱这些角色的任何建议吗?
答案 0 :(得分:5)
除了一组合法字符外,您可以删除所有内容:
train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)
例如,会将不是字母数字或空白字符的每个字符更改为空格。