Question

我有一个很大的数据集（65,000个观察值），该数据集的地址列存在多个错误。我观察到的一些错误是：第十大道，第十大道或AVE和大道等。有些甚至在单词之间仅留有多余的空格。显然会有更多的错误，但是由于数据集如此之大，我自己找不到它们。

所以我想知道是否有可以编写的代码可以自动为我识别错误？然后我可以写什么代码来修复它们？

Answer 1

是的，您可以使用gsub（）完成此操作

从您给出的示例开始

example <- example %>%
  #put all items in consistent case
  mutate(address = str_to_title(address),
         #fix Tenth to 10th
         address = gsub('Tenth','10th',address),
         #fix Ave to Avenue
         address = gsub('Ave','Avenue',address))

如何查找并修复地址错误？

1 个答案: