用于网络抓取的名称来源

时间:2010-04-25 01:17:54

标签: python web-scraping

任何人都可以建议一个很好的名称来源,我可以用它来帮助分析网页上的一些表格。

我正在抓的表格的第一列只有名字,名字和标题或只是标题。

这些名字可以和约翰史密斯到Vikram Saksena一样多变 我一直在寻找可以在专有名称中找到的已编译的单词列表。

编辑我已经尝试过人口普查中的名字集,它里面有很多垃圾,不值得合作。

1 个答案:

答案 0 :(得分:1)

下载Febrl project source code

它的数据文件夹包含名称表(给定/中间/姓氏/等)。您可能需要根据自己的需要按摩数据。

对于姓氏,您可以查看美国人口普查数据。我现在没有链接,但知道我之前使用过该来源的普通美国姓氏。