我有一个包含州城市名称(即NY NEW YORK)的数据集,但是某些位置名称不正确。在某些情况下,该位置的拼写错误或缺少空格(即NY NEWW YORK或NY NEWYORK)。我有一个带有所有正确城市名称的excel文件,想知道是否有一种方法可以对该文件进行某种类型的查找并在我的R脚本中进行更正。
我的excel参考文件设置如下:
CurrentOrigin CorrectOrigin
NY NEW YORK NY NEW YORK
NY NEWW YORK NY NEW YORK
我尝试编写if语句,但是没有运气。
我的R技能很有限,但是我每天都在大步向前。
if (df$Origin == df2$CurrentOrigin) {
df2$CorrectOrigin ##not sure what to put in the statement
}
任何帮助都会很棒!预先谢谢你!
答案 0 :(得分:0)
使用library(tidyverse)
df1 <- tibble('ids' = c('1a', '2b' , '3c'),
'origin' = c('Ny New York', 'NY NEWYORK', 'NY NEWW York'))
refdf <- tibble('CurrentOrigin'= c('NY NEWYORK', 'Ny New York', 'NY NEWW York'),
'CorrectOrigin' = rep('NY NEWYORK', 3))
df1corr <- left_join(df1, refdf, by = c('origin' = 'Current Origin'))
df1corr
# A tibble: 3 x 3
ids origin CorrectOrigin
<chr> <chr> <chr>
1 1a Ny New York NY NEWYORK
2 2b NY NEWYORK NY NEWYORK
3 3c NY NEWW York NY NEWYORK
包,如何进行SQL风格的连接
left_join
df1
连接两个表,保留左侧表CorrectOrigin
中的所有行。然后,您可以检查cv2.rect
中是否有任何丢失的数据或其他所需的数据。