如果匹配另一个字符串的一部分,则替换字符串

时间:2021-04-16 23:04:46

标签: r regex string text replace

我有一列人的姓氏和他们的首字母缩写,在某些情况下,一个人可能会被列出两次,一次是一个首字母(例如 SMITH C),一次是两个首字母(例如 SMITH CD),我想替换带有 SMITH C 的 SMITH CD 的所有实例。

一个例子

df <- data.frame(
  id = 1:7,
  names = c("JOHN S", "JOHN SW", "JOHNSON S",
            "SMITH C", "SMITH WC", "SMITH CD",
            "HANK K"))
> df
  id     names
1  1    JOHN S
2  2   JOHN SW
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6  SMITH CD
7  7    HANK K

我可以为单个名称手动执行此操作,例如:

df$names <- gsub("SMITH CD", "SMITH C", df$names)

> df
  id     names
1  1    JOHN S
2  2   JOHN SW
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6   SMITH C
7  7    HANK K

但我的真实数据集包含 ~4000 个名字,因此我希望能够:

  1. 以编程方式识别姓氏和第一个初始匹配的情况,以及
  2. 一次性完成所有替换

对于上面的小例子df,结果是:

> df
  id     names
1  1    JOHN S
2  2    JOHN S
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6   SMITH C
7  7    HANK K

任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:3)

当有两个字母单词时,通过去掉末尾的字母来创建一个分组列,然后通过选择字符数最少的元素来修改names

library(dplyr)
library(stringr)
df %>% 
    group_by(grp = str_remove(names, "(?<= [A-Z])[A-Z]$")) %>% 
    mutate(names = names[which.min(nchar(names))]) %>%
    ungroup %>%
    select(-grp)

-输出

# A tibble: 7 x 2
#     id names    
#  <int> <chr>    
#1     1 JOHN S   
#2     2 JOHN S   
#3     3 JOHNSON S
#4     4 SMITH C  
#5     5 SMITH WC 
#6     6 SMITH C  
#7     7 HANK K