我从电子邮件服务器获取一个数据库,其中包含近300万个已发送的电子邮件地址。
但是,正如您可以想象的那样,这些地址大部分都是垃圾邮件,我试图将其从此列表中删除。
使用正则表达式过滤某些域和无效格式,我仍有400145个地址。
但是,看看结果,一些电子邮件如YSXCVZXFASDFKLS@gmail.com仍在列表中,因为直到现在我还没有根据本地名称应用任何过滤器。
我的问题是:如何根据本地名称过滤剩余的电子邮件地址?我试图找到一个模式,但是电子邮件如pp3 @ gmail.com,Yaxv @ hotmail.com,我怎么能将这些与ebcom@gmail.com等有效的电子邮件地址区别开来?