Question

我需要一个人们常用名字的列表，比如“Bill”，“Gordon”，“Jane”等。是否有一些已知名称的免费列表，而不是我必须输入它们？我可以轻松解析程序以填充数组吗？

我并不担心：

知道姓名是男性还是女性（或两者兼有）
如果数据集有一大堆误报
如果有名称不在其中，显然没有这样的数据集将完整。
如果有'重复'，即我不在乎数据集是否将“Bill”，“William”和“Billy”列为不同的名称。我宁愿拥有更多数据而不是更少
我不在乎知道名字

我知道Wikipedia有一个list of most popular given names，但这一切都在HTML页面中，并且带有可怕的wiki语法。有没有更好的方法来获取这样的样本数据，而不必屏幕刮擦维基百科？

Answer 1

A CSV

General Register Office of Scotland，其中包含2007年注册的所有游戏名称。
Another large set of first names（但他们没有说哪个数据库转储了SQL）。
GitHub page包含1880年至2009年的前1000个宝贝名称，已经从Social Security Administration解析为CSV。
CSV of baby names and meanings。

这应该足以让你开始，我想。

Answer 2

Social Security Administration - Beyond the Top 1000 Names Data Files

以上是美国使用的名字的完整列表。 zip文件以CSV格式包含出生年份的国家和州级数据。它包括出现次数（最少5次）和性别。例如，2010年的国家档案包括33,838个婴儿名称。

Answer 3

您可以轻松使用维基百科API（http://en.wikipedia.org/w/api.php）来检索特定类别中的页面列表，看起来像类别：给定名称是您想要从中开始的。

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names

此网址的结果部分如下所示：

  <cm pageid="5797824" ns="0" title="Abdou" />
  <cm pageid="5797863" ns="0" title="Abdu" />
  <cm pageid="859035" ns="0" title="Abdul Aziz" />
  <cm pageid="6504818" ns="0" title="Abdul Qadir" />

查看API并选择适当的格式和查询参数，并检查类别。

P.S。顺便说一句，您链接到的页面中的wiki文本包含易于使用正则表达式提取的表单中的名称...以及呈现的HTML页面中的链接标题附加了“（名称）”这个名字本身。

简单的，计算机可解析的常用名字列表？

3 个答案: