将电子邮件ID与人名匹配

时间:2014-04-06 17:05:21

标签: pattern-matching matching string-matching

我有一个数据库(比如5000条记录),里面有人名(名字和姓氏)。我还有一大堆电子邮件ID(比如大约30000)。现在,我必须将这些电子邮件ID与可能的人名相匹配,并丢弃其他ID。所以我目前正在做的是,我做了一些模式,如:

1. firstname.lastname@something.com 2. lastname.firstname@something.com 3. firstname_lastname@something.com 4. lastname_firstname@something.com etc

我也尝试在上述模式后使用名字和姓氏进行模糊搜索。 但人们倾向于在电子邮件ID中使用大量模式。截至目前,我倾向于为一些人获得超过1的结果。有没有更好的方法来增加正确匹配电子邮件的概率。我经常搜索,并没有找到任何可靠的想法。

1 个答案:

答案 0 :(得分:0)

为了使它更聪明一点,您可以假设任何非字母数字都是名称分隔符并使用正则表达式,例如

$扬[^ A-Z0-9]史密斯@。* ^

但这对你的多场比赛没有帮助。我认为,由于您的电子邮件格式不受约束,您将不可避免地得到误报。考虑到你的数据库的大小,我认为你一直坚持用手做一些:(