我有一个很大的数据集(65,000个观察值),该数据集的地址列存在多个错误。 我观察到的一些错误是:第十大道,第十大道或AVE和大道等。有些甚至在单词之间仅留有多余的空格。显然会有更多的错误,但是由于数据集如此之大,我自己找不到它们。
所以我想知道是否有可以编写的代码可以自动为我识别错误? 然后我可以写什么代码来修复它们?
答案 0 :(得分:0)
是的,您可以使用gsub()完成此操作
从您给出的示例开始
example <- example %>%
#put all items in consistent case
mutate(address = str_to_title(address),
#fix Tenth to 10th
address = gsub('Tenth','10th',address),
#fix Ave to Avenue
address = gsub('Ave','Avenue',address))