如何查找并修复地址错误?

时间:2018-10-11 08:22:23

标签: r

我有一个很大的数据集(65,000个观察值),该数据集的地址列存在多个错误。 我观察到的一些错误是:第十大道,第十大道或AVE和大道等。有些甚至在单词之间仅留有多余的空格。显然会有更多的错误,但是由于数据集如此之大,我自己找不到它们。

所以我想知道是否有可以编写的代码可以自动为我识别错误? 然后我可以写什么代码来修复它们?

1 个答案:

答案 0 :(得分:0)

是的,您可以使用gsub()完成此操作

从您给出的示例开始

example <- example %>%
  #put all items in consistent case
  mutate(address = str_to_title(address),
         #fix Tenth to 10th
         address = gsub('Tenth','10th',address),
         #fix Ave to Avenue
         address = gsub('Ave','Avenue',address))