专有名单?

时间:2010-01-27 22:50:16

标签: text filtering classification corpus

我正在尝试从文本blob中过滤名称。目前我只是生成一个单词列表并手动过滤它但我已经有大约8k字了,所以我正在寻找更好的方法。我可以抓住一本字典并过滤掉它们,但这样可以剔除像史密斯和悬崖这样的名字。

我需要的是以下任何一种:

  • 常用名称列表(我需要> 5k最常见名称)
  • 一个也恰好是单词的名单

我想到他们之间,我可以组合黑名单/白名单来获得我需要的东西。

2 个答案:

答案 0 :(得分:5)

美国人口普查名单:http://www.census.gov/genealogy/www/

无论如何,这应该让你对这个问题有一个角度。

已修改 已更改的网址,以下是关于网页移动的评论。没人相信HTTP 302了吗?

答案 1 :(得分:2)

我在Quora找到的帖子

  

CMU的NELL项目从网上收集了大量专有名词,并按类型对其进行了分类。您可以通过以下网址在线浏览:NELL KnowledgeBase Browser并下载数据:Resources & Data

网络抓取结果,例如,personUS似乎比我所做的更有效,这是从标记为" person"的短语中提取名单的列表。在他们的大标签分隔的CSV文件中。无论哪种方式,你都会使用正则表达式。