清除具有某些扩展名的重复名称

时间:2018-10-29 07:33:32

标签: r regex data-science data-cleaning

在数据表的“公司名称”列中,一些公司反复使用不同的名称,例如Apple和Apple _请勿致电。我只想考虑一个。如何清除这些数据?重复的公司名称在其他字段中具有相同的值

Company Name     Volume
Apple              150
Wallmart           190
Apple_Do Not Call  150
Sapient            450
Apple inc.         150

如果您关注数据,则苹果公司会反复使用不同的名称。我只考虑1个值,即Apple

1 个答案:

答案 0 :(得分:0)

您可以在具有相同值(在本例中为“数量”)的不同字段上进行group_by,然后使用mutate将公司名称更改为每个group_by组的第一个值

dt %>% group_by(Volume) %>% mutate(Company_Name = first(Company_Name))

dt这是您的数据表。