我有一个带有一些损坏字符的文件,我想清理它并只保留字母字符和数字。数据如下所示:
data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk")
所需的输出是:
clean_data <- c("120 RED","121 College", "Street","Sky")
答案 0 :(得分:2)
这将替换除字母,数字和&amp;之外的所有内容。与&#34;&#34;:
的空白区域gsub("([^A-Za-z0-9 ])+", "", x = data)
[1] "120 RED" "121 k College" "x Street" "Sky k"
我担心它还会留下随机的k,x和k,因为那些是被腐败的包围的正常字母。