我怎样才能获得人名列表?

时间:2014-07-04 11:18:56

标签: java algorithm dataset

在文档中,我应检测人名并将其解压缩到txt文件。出于这个原因,我想我应该在Eurape,美国和加拿大有一个人名列表。此外,我可能会查看可用列表上的名称和文档中找到的单词。如果匹配,我会提取它们。然而,问题是“我怎样才能获得人名列表?”。或者,你知道一个检测人类名字的开源项目吗?

注意:我不是在询问有关工具的建议。 IT只是一个数据集,我怎样才能达到它?一种方式。

1 个答案:

答案 0 :(得分:2)

英语国家使用的名字列表可供使用。参见例如http://www.world-english.org/boys_names_list.htm。 (如果您正在寻找具有德语,法语,......名称的人,那将会使事情变得复杂,但是应该有其他名单 - 我已经看过一个德国名字。)

将名字放入哈希集。

将文字分解为单词很简单。

迭代这些单词并尝试在哈希集中查找似是而非(例如大写的第一个字母)。

如果您需要查找全名,请查看以下单词并检查可能的中间名(“George A.”),完整的中间名和姓氏。

这是一个漏洞,但我认为可以达到90%。