如何通过模糊字符串变量查找唯一标识符

时间:2019-02-14 13:02:17

标签: r

(对标题的措辞不好,我缺乏适当的词汇表示歉意)

考虑以下数据框,其中id3是我们要通过仅考虑列id1id2来创建的内容

df = data.frame(id1 = c(1,1,2,2,3,3,4,4),
            id2 = c('CompanyA Inc','CompanyA Inc.','CompanyA Inc','CompanyA Inc','ComapnyB','ComapnyB','NewNameB','ComapnyB'),
            id3 = c(1,1,1,1,2,2,2,2))

我想为每个“公司”创建一个标识符(id3)。 id2是一个“不干净的”标识符(从某种意义上说,名称会稍有变化,但不能选择字符串清洁)。

df
   id1           id2 id3
1    1  CompanyA Inc   1
2    1 CompanyA Inc.   1
3    2  CompanyA Inc   1
4    2  CompanyA Inc   1
5    3      ComapnyB   2
6    3      ComapnyB   2
7    4      NewNameB   2
8    4      ComapnyB   2

我想有人会需要一种算法,该算法对于给定的id1值,检查所有id2值并返回对应的id1,然后为此分配一个ID,但是我看不到如何正确执行此操作...

0 个答案:

没有答案