我的名字列表出现以下错误:中间名称出现两次,例如s.no-1,2。我有数据表格式,有100k观测值和15个变量,包括名称列。如何通过删除出现两次的中间名来实现预期输出?
Name Column Expected
1.A michael michael aura 1.A michael aura
2.A thomas thomas parsa 2.A thomas parsa
3.a gul 3.a gul
4.clark 4.clark
答案 0 :(得分:1)
我们可以使用sub
sub("\\s+(\\w+\\s*)\\1+", " \\1", df1[,1])
#[1] "1.A michael aura" "2.A thomas parsa" "3.a gul" "4.clark"