我正在尝试通过搜索最常见域中的差异来更正列表中包含的不良电子邮件。例如:hotmal.com至hotmail.com。 问题是,一个域有很多变体。如果有人知道python中可以用作电子邮件域自动更正的算法,那将非常有帮助。或者,如果对于几行代码来说,这太过复杂的问题了。
答案 0 :(得分:0)
检查从https://en.wikipedia.org/wiki/Levenshtein_distance开始的 Levenshtein距离 通常用于自动更正
答案 1 :(得分:0)
如果...在域中搜索关键字该怎么办。就像hotmail.com一样,您可以搜索hot或类似名称。另外,就像@ user10817019所写的那样,您可以将其与搜索域的首字母和尾字母结合起来。
答案 2 :(得分:-1)
用您喜欢的语言编写一个小的脚本,该脚本采用以h开头,以l结尾的域,然后用hotmail替换整个字符串,以便修复两者之间的所有问题。如果他们忘记了L,请搜索mai。前几天我不得不在vb.net上这样做,因此请两次检查我的列表并更正错误的数据。