名称与R

时间:2016-03-10 22:34:59

标签: r fuzzy-search agrep

我有两个包含大量变量的数据帧。主要关注的是以下变量:df1.organization_name和df2.legal.name。我只是在这里使用完全限定的SQL-esque名称。

df1的尺寸为15 x 2700,而df2的尺寸为10x40,000。基本上,“常用”或“匹配”列是名称字段。

我查看了这篇文章Merging through fuzzy matching of variables in R并且它非常有帮助,但我无法弄清楚如何纠缠脚本以使其与我的dfs一起使用。

我一直收到错误 - 错误(organization_name [i] == LEGAL.NAME):   找不到对象'LEGAL.NAME'。

期望的匹配和结果

我要做的是将df1.organization_name的每一个与每个df2.legal_name进行比较,如果它们是非常接近的匹配(例如> = 85%),则进行比较。然后在上面的脚本中,将匹配的客户名称和匹配的比较名称放入data.frame中以供以后分析。

所以,如果我的一个客户名称是“约翰霍普金斯汽车修理”并且我的公开名单之一是'John Hopkins Microphone Repair',我会称这是一个很好的匹配,我希望附加某种指标我的客户列表(在另一栏中),“部分匹配”和公共列表中的名称。

用于文字争论的dfs示例:

df1.organization_name(这些是虚假名称b / c我无法发布客户名称)

- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners

df2.LEGAL.NAME(这些是来自开源文件的真实姓名)

- $1 & UP STORE CORP. 
- $1 store 0713
- LLC 0baid/munir/gazem 
- 1 2 3 MONEY EXCHANGE LLC 
- 1 BOY & 3 GIRLS, LLC 
- 1 STAR BEVERAGE INC 
- 1 STOP LLC
- 1 STOP LLC 
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE 
- 1 Stop Money Centers, LLC/Richard

0 个答案:

没有答案