标签: r character-encoding
我有一个包含字符串的数据集,下面的特殊字符可以在数据集中找到。
Special character
如何从数据集中删除上述特殊字符?
答案 0 :(得分:3)
使用正则表达式删除不需要的字符,例如:
dataset$textcolumn <- gsub("[^\\w\\s]", "", dataset$textcolumn, perl=TRUE)
删除除字符和空格之外的所有内容。要进行更复杂的替换,请查看帮助主题?regexp。
?regexp
同时查看编码(Encoding和iconv在这里很有帮助。),也许文本是正确的,但假设编码错误。
Encoding
iconv