我遇到了一些较小的列表/名称集,但我想知道是否有一个可以提供名称列表(逗号分隔或sql结构)的免费数据源?
我找到了这两个网站:
http://names.mongabay.com/most_common_surnames.htm
http://baby-names.familyeducation.com/browse/letter/a?detoured=1
但是,似乎您只能浏览名称,而不能下载全面的文件。
美国人口普查局是否提供此信息?
答案 0 :(得分:27)
我正在编制一个数据库,其中包含来自不同国家和文化的姓氏,其中包括英国。 项目及其数据集可以在这里找到:https://github.com/enorvelle/NameDatabases (死:链接,项目和GitHub帐户)
这似乎已迁移到github.com/smashew/NameDatabases。(唯一的贡献者“Erik Norvelle”。)
答案 1 :(得分:6)
我能找到的最好的来源是社会保障管理部门提供的数据 - 与人口普查数据不同,它们的名字每年都可追溯到〜1900年。
答案 2 :(得分:5)
人口普查局提供2000年和1990年人口普查的共同姓氏清单: http://www.census.gov/topics/population/genealogy/data/2000_surnames.html http://www.census.gov/topics/population/genealogy/data/1990_census/1990_census_namefiles.html
1990年的人口普查文件也有常见的男性和女性名单。
答案 3 :(得分:1)
选项1) 我将数百万人的数据上传到github,我从不同的网站抓取并从Google开放数据集中转储。
https://github.com/aakashkag/People-Name-List [名字目录的Github链接]
选项2)
Google BigQuery Public Dataset: https://cloud.google.com/bigquery/public-data/
您可以从Google开放数据集中获取名称以及性别。
1)数据集:bigquery-public-data:github_repos
示例:https://app.hyfy.io/v/abRJ75Xizno/
查询:SELECT * FROM fh-bigquery.popular_names.usa_summary_1880_2015
LIMIT 1000
总名称可用:1858689
2)Dateset:bigquery-public-data.github_repos.commits
查询:SELECT author.name as author_name,author.email as author_email,committer.name as committer_name,committer.email as committer_email,repo_name FROM bigquery-public-data.github_repos.commits
3)Dateset:bigquery-public-data.usa_names.usa_1910_2013`
查询:SELECT * FROM bigquery-public-data.usa_names.usa_1910_2013