我有一个数据库(比如5000条记录),里面有人名(名字和姓氏)。我还有一大堆电子邮件ID(比如大约30000)。现在,我必须将这些电子邮件ID与可能的人名相匹配,并丢弃其他ID。所以我目前正在做的是,我做了一些模式,如:
1. firstname.lastname@something.com
2. lastname.firstname@something.com
3. firstname_lastname@something.com
4. lastname_firstname@something.com
etc
我也尝试在上述模式后使用名字和姓氏进行模糊搜索。 但人们倾向于在电子邮件ID中使用大量模式。截至目前,我倾向于为一些人获得超过1的结果。有没有更好的方法来增加正确匹配电子邮件的概率。我经常搜索,并没有找到任何可靠的想法。
答案 0 :(得分:0)
为了使它更聪明一点,您可以假设任何非字母数字都是名称分隔符并使用正则表达式,例如
$扬[^ A-Z0-9]史密斯@。* ^
但这对你的多场比赛没有帮助。我认为,由于您的电子邮件格式不受约束,您将不可避免地得到误报。考虑到你的数据库的大小,我认为你一直坚持用手做一些:(