(对标题的措辞不好,我缺乏适当的词汇表示歉意)
考虑以下数据框,其中id3
是我们要通过仅考虑列id1
和id2
来创建的内容
df = data.frame(id1 = c(1,1,2,2,3,3,4,4),
id2 = c('CompanyA Inc','CompanyA Inc.','CompanyA Inc','CompanyA Inc','ComapnyB','ComapnyB','NewNameB','ComapnyB'),
id3 = c(1,1,1,1,2,2,2,2))
我想为每个“公司”创建一个标识符(id3
)。 id2
是一个“不干净的”标识符(从某种意义上说,名称会稍有变化,但不能选择字符串清洁)。
df
id1 id2 id3
1 1 CompanyA Inc 1
2 1 CompanyA Inc. 1
3 2 CompanyA Inc 1
4 2 CompanyA Inc 1
5 3 ComapnyB 2
6 3 ComapnyB 2
7 4 NewNameB 2
8 4 ComapnyB 2
我想有人会需要一种算法,该算法对于给定的id1
值,检查所有id2
值并返回对应的id1
,然后为此分配一个ID,但是我看不到如何正确执行此操作...