Question

我有一列人的姓氏和他们的首字母缩写，在某些情况下，一个人可能会被列出两次，一次是一个首字母（例如 SMITH C），一次是两个首字母（例如 SMITH CD），我想替换带有 SMITH C 的 SMITH CD 的所有实例。

一个例子

df <- data.frame(
  id = 1:7,
  names = c("JOHN S", "JOHN SW", "JOHNSON S",
            "SMITH C", "SMITH WC", "SMITH CD",
            "HANK K"))
> df
  id     names
1  1    JOHN S
2  2   JOHN SW
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6  SMITH CD
7  7    HANK K

我可以为单个名称手动执行此操作，例如：

df$names <- gsub("SMITH CD", "SMITH C", df$names)

> df
  id     names
1  1    JOHN S
2  2   JOHN SW
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6   SMITH C
7  7    HANK K

但我的真实数据集包含 ~4000 个名字，因此我希望能够：

以编程方式识别姓氏和第一个初始匹配的情况，以及
一次性完成所有替换

对于上面的小例子df，结果是：

> df
  id     names
1  1    JOHN S
2  2    JOHN S
3  3 JOHNSON S
4  4   SMITH C
5  5  SMITH WC
6  6   SMITH C
7  7    HANK K

任何帮助将不胜感激。

Answer 1

当有两个字母单词时，通过去掉末尾的字母来创建一个分组列，然后通过选择字符数最少的元素来修改names

library(dplyr)
library(stringr)
df %>% 
    group_by(grp = str_remove(names, "(?<= [A-Z])[A-Z]$")) %>% 
    mutate(names = names[which.min(nchar(names))]) %>%
    ungroup %>%
    select(-grp)

-输出

# A tibble: 7 x 2
#     id names    
#  <int> <chr>    
#1     1 JOHN S   
#2     2 JOHN S   
#3     3 JOHNSON S
#4     4 SMITH C  
#5     5 SMITH WC 
#6     6 SMITH C  
#7     7 HANK K

如果匹配另一个字符串的一部分，则替换字符串

1 个答案: