Question

我有一个我正在尝试处理的字符串向量，但我无法摆脱一些奇怪的字符。

当我阅读csv文件时，我使用了以下行：

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")

我用这一行试图摆脱标点符号：

train$var1 <- gsub("[[:punct:]]", " ", train$var1)

然而，在运行它之后的检查中，我仍然看到奇怪的单引号，'...'和黑点像密码隐藏字符。这是输入：

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")

有关摆脱这些角色的任何建议吗？

Answer 1

除了一组合法字符外，您可以删除所有内容：

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)

例如，

会将不是字母数字或空白字符的每个字符更改为空格。