我正在寻找一个可用于测试联系人数据库中可能的名称拼写错误的参考数据库。这是一个批处理过程,因此性能不是一个真正的问题。理想情况下,我想要一个全面的数据库,但即使像“前5000”这样的东西也会有很长的路要走。
谢谢!
答案 0 :(得分:18)
我不了解数据库,而是从像这样的资源中自己填充数据库 http://web.archive.org/web/20081218100813/http://www.census.gov/genealogy/names/dist.all.last 应该工作得很好:)。
答案 1 :(得分:14)
我知道涵盖的名字数据库http://www.lexique.org/public/Prenoms100.zip
Phil, Phile, Philip, Philipp, Phillip, Felipe, Philippe
。 (大约12000名)
我认为你找不到任何有用的名字,因为它们比名字要多得多。这是计算语言学中的一个已知问题。
答案 2 :(得分:13)
我不明白你如何在名字中找到拼写错误。我的意思是,我的名字是菲利普(法国),但它可以是菲利普,飞利浦,费利佩,菲利普或其他任何东西。可能有一个传统的法国名字,桑德琳,但一个趋势是写出了鸡蛋泉,更多的是法律最近在法国放松。等等。
好吧,也许Jhon闻起来像一个错字(常见的两个字母反转),但你无法确定
姓氏中的错别字更难以发现......除非您检查有限的已知名单(例如公司的员工)。
答案 3 :(得分:2)
如果没有涉及其他语言信息,这可能毫无用处。我不会在此花费精力,因为它可能只适用于一小部分人口程序。
PS:不要忘记中国,俄罗斯和印度的名字(数百万)答案 4 :(得分:2)
我个人认识那些有着独特名字的人(他们的父母刻意将其命名为独特的名字),而且我个人也知道那些名字似乎拼写错误的人,但实际上他们的父母就是这些人的名字。我甚至不想尝试修改名称拼写错误这样的事情。我们所做的是导入名称(我们需要来自客户的唯一标识符)。然后在下次导入时,我们匹配唯一标识符,如果名称被更改(因为我们联系了该人,他或她告诉我们要将其更改为什么),则名称不会更新。如果名称没有改变并且文件中的内容不同(通常是因为婚姻或离婚),那么名称就会更新。你需要在数据记录上使用某种标志来告诉它是手动更新的。我们通过触发器来填充它。
导入名称数据时更重要的是避免创建重复项(因此我们需要从数据源中获取唯一标识符)或避免不正确的数据匹配(在匹配时不能只考虑名称以查看记录是否已经存在)。
答案 5 :(得分:2)
我发现一些数据库并不用于检查拼写,但是这里列出了常见的名字:Name Genders Database,另一个列出了常见的姓氏:{{ 3}}
希望有所帮助!