我正在使用条件随机字段构建命名实体识别器,我正在寻找两件事:
A)人员,位置和组织实体的开源英语NER数据集
B)英语NER功能列表
我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我找不到NER功能列表是不成功的;我试图避免手工设计这些功能。
由于
答案 0 :(得分:2)
您可以在Ratinov&amp ;; this paper中找到有关NER所需内容的概括性和非常丰富的信息。罗斯。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。
答案 1 :(得分:1)
A)除了MUC语料库,你应该在这里查看手动注释的子语料库:http://www.americannationalcorpus.org/MASC/About.html它是免费的,有各种文档类型。它附带了解析NLTK,GATE和UIMA格式的工具:http://www.anc.org/MASC/Download
B)这是一个非常普遍的问题..您可以尝试使用n-gram,单词大写,使用单词字符串作为特征,词性等。您可以从阅读有关CRF的Stanford解析器方法开始:{{ 3}}