如何模糊匹配人名的字符串,不同地列出firstName lastName或lastName firstName以及拼写错误

时间:2014-07-12 22:18:43

标签: r agrep

我有来自59个不同移民法庭的600万法庭诉讼数据集。每条记录都包括律师代码。但是,每个独特的律师都有多个代码。在另一个将律师代码与律师名称相关联的表格中,律师名称列在firstName,lastName,middleName,Esq等的每个可以想象的排列中的单个字符串中。律师姓名还包括拼写错误。我相信有超过10,000名独特的律师。

以下是与单个律师相关联的唯一代码/名称对的示例,其真实(伪装)此名称应为“H. Todd Smith”(第一列是行号):

   attorneycode         attorneyname
16          SEH  H. TODD SMITH, ESQ.
26          HTS  H. TODD SMITH, ESQ.
23          HTS  SMITH ESQ., H. TODD
9           HTS SMITH, ESQ., H. TODD
18          SES SMITH, ESQ., TODD H.
7           SES       SMITH, H. TODD
12          S02       SMITH, H. TODD
1           Q<B Smith, H. Todd, Esq.
2           SHT Smith, H. Todd, Esq.
3           ..T Smith, H. Todd, Esq.
5           HTS Smith, H. Todd, Esq.
8           SHT SMITH, H. TODD, ESQ.
21          SH0 SMITH, H. TODD, ESQ.
20          ses          smith, todd
11          SES       SMITH, TODD H.
6           SSM SMITH, TODD H., ESQ.
4           SES  Todd H. Smith, Esq.
17          THM  TODD H. SMITH, ESQ.

我的目标是为每位独特的律师及其所有当前相关代码/名称分配唯一的ID。但是没有我能“匹配”的“真实”名字列表。如何为唯一的律师姓名生成最佳候选人列表?

修改

Richie Cotton建议在另一篇文章中回答这个问题 - 但另一篇文章涉及“重复”记录,而在我的数据中,这些不是重复,而是与同一个人有关的独特记录,尽管不是如此编码。此外,链接帖子中的主要建议答案涉及使用CRAN上不再提供的包。我误解了什么吗?

0 个答案:

没有答案