作为联系人管理系统的一部分,我有一个庞大的名称数据库。人们经常编辑这个,因此我们遇到了以不同形式存在的同一个人的问题(约翰史密斯和乔纳森史密斯)。我研究了单词的相似性,但很容易想到名字变化,这些变化根本不相似(Richard vs Dick)。我想知道是否有可用于检测和纠正此类错误的常用英文名字变体列表。
答案 0 :(得分:3)
我会抓取所有维基百科页面(有可用的维基百科数据转储),例如http://en.wikipedia.org/wiki/Teresa(来自http://en.wikipedia.org/wiki/Category:English_given_names),并创建一个可用于建议人员的索引正确的表单(您将根据数据库中的名字变体的数量对它们进行排名)。不幸的是我不知道。这样的数据库。
答案 1 :(得分:3)
This thread指向人口普查中的昵称/名字地图列表: