命名实体识别数据和功能

时间:2013-02-23 20:20:10

标签: nlp named-entity-recognition

我正在使用条件随机字段构建命名实体识别器,我正在寻找两件事:

A)人员,位置和组织实体的开源英语NER数据集

B)英语NER功能列表

我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我找不到NER功能列表是不成功的;我试图避免手工设计这些功能。

由于

2 个答案:

答案 0 :(得分:2)

您可以在Ratinov&amp ;; this paper中找到有关NER所需内容的概括性和非常丰富的信息。罗斯。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。

答案 1 :(得分:1)

A)除了MUC语料库,你应该在这里查看手动注释的子语料库:http://www.americannationalcorpus.org/MASC/About.html它是免费的,有各种文档类型。它附带了解析NLTK,GATE和UIMA格式的工具:http://www.anc.org/MASC/Download

B)这是一个非常普遍的问题..您可以尝试使用n-gram,单词大写,使用单词字符串作为特征,词性等。您可以从阅读有关CRF的Stanford解析器方法开始:{{ 3}}