我有一列人的姓氏和他们的首字母缩写,在某些情况下,一个人可能会被列出两次,一次是一个首字母(例如 SMITH C),一次是两个首字母(例如 SMITH CD),我想替换带有 SMITH C 的 SMITH CD 的所有实例。
一个例子
df <- data.frame(
id = 1:7,
names = c("JOHN S", "JOHN SW", "JOHNSON S",
"SMITH C", "SMITH WC", "SMITH CD",
"HANK K"))
> df
id names
1 1 JOHN S
2 2 JOHN SW
3 3 JOHNSON S
4 4 SMITH C
5 5 SMITH WC
6 6 SMITH CD
7 7 HANK K
我可以为单个名称手动执行此操作,例如:
df$names <- gsub("SMITH CD", "SMITH C", df$names)
> df
id names
1 1 JOHN S
2 2 JOHN SW
3 3 JOHNSON S
4 4 SMITH C
5 5 SMITH WC
6 6 SMITH C
7 7 HANK K
但我的真实数据集包含 ~4000 个名字,因此我希望能够:
对于上面的小例子df,结果是:
> df
id names
1 1 JOHN S
2 2 JOHN S
3 3 JOHNSON S
4 4 SMITH C
5 5 SMITH WC
6 6 SMITH C
7 7 HANK K
任何帮助将不胜感激。
答案 0 :(得分:3)
当有两个字母单词时,通过去掉末尾的字母来创建一个分组列,然后通过选择字符数最少的元素来修改names
library(dplyr)
library(stringr)
df %>%
group_by(grp = str_remove(names, "(?<= [A-Z])[A-Z]$")) %>%
mutate(names = names[which.min(nchar(names))]) %>%
ungroup %>%
select(-grp)
-输出
# A tibble: 7 x 2
# id names
# <int> <chr>
#1 1 JOHN S
#2 2 JOHN S
#3 3 JOHNSON S
#4 4 SMITH C
#5 5 SMITH WC
#6 6 SMITH C
#7 7 HANK K