使用参考文件更正州名

时间:2019-03-27 17:21:14

标签: r

我有一个包含州城市名称(即NY NEW YORK)的数据集,但是某些位置名称不正确。在某些情况下,该位置的拼写错误或缺少空格(即NY NEWW YORK或NY NEWYORK)。我有一个带有所有正确城市名称的excel文件,想知道是否有一种方法可以对该文件进行某种类型的查找并在我的R脚本中进行更正。

我的excel参考文件设置如下:

CurrentOrigin     CorrectOrigin
NY NEW YORK        NY NEW YORK
NY NEWW YORK       NY NEW YORK

我尝试编写if语句,但是没有运气。

我的R技能很有限,但是我每天都在大步向前。

if (df$Origin == df2$CurrentOrigin) {
     df2$CorrectOrigin ##not sure what to put in the statement
}

任何帮助都会很棒!预先谢谢你!

1 个答案:

答案 0 :(得分:0)

使用library(tidyverse) df1 <- tibble('ids' = c('1a', '2b' , '3c'), 'origin' = c('Ny New York', 'NY NEWYORK', 'NY NEWW York')) refdf <- tibble('CurrentOrigin'= c('NY NEWYORK', 'Ny New York', 'NY NEWW York'), 'CorrectOrigin' = rep('NY NEWYORK', 3)) df1corr <- left_join(df1, refdf, by = c('origin' = 'Current Origin')) df1corr # A tibble: 3 x 3 ids origin CorrectOrigin <chr> <chr> <chr> 1 1a Ny New York NY NEWYORK 2 2b NY NEWYORK NY NEWYORK 3 3c NY NEWW York NY NEWYORK 包,如何进行SQL风格的连接

left_join

df1连接两个表,保留左侧表CorrectOrigin中的所有行。然后,您可以检查cv2.rect中是否有任何丢失的数据或其他所需的数据。