应用错误收集

时间：2014-04-06 17:05:21

标签： pattern-matching matching string-matching

我有一个数据库（比如5000条记录），里面有人名（名字和姓氏）。我还有一大堆电子邮件ID（比如大约30000）。现在，我必须将这些电子邮件ID与可能的人名相匹配，并丢弃其他ID。所以我目前正在做的是，我做了一些模式，如：

1. firstname.lastname@something.com 2. lastname.firstname@something.com 3. firstname_lastname@something.com 4. lastname_firstname@something.com etc

我也尝试在上述模式后使用名字和姓氏进行模糊搜索。但人们倾向于在电子邮件ID中使用大量模式。截至目前，我倾向于为一些人获得超过1的结果。有没有更好的方法来增加正确匹配电子邮件的概率。我经常搜索，并没有找到任何可靠的想法。

答案 0 :(得分：0)

为了使它更聪明一点，您可以假设任何非字母数字都是名称分隔符并使用正则表达式，例如

$扬[^ A-Z0-9]史密斯@。* ^

但这对你的多场比赛没有帮助。我认为，由于您的电子邮件格式不受约束，您将不可避免地得到误报。考虑到你的数据库的大小，我认为你一直坚持用手做一些:(