时间:2010-07-25 17:27:44

标签: nltk corpus named-entity-recognition tagged-corpus

3 个答案:

答案 0 :(得分:6)

http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

有一个语料库列表

该列表上的CoNLL 2003语料库是免费的,可从http://www.cnts.ua.ac.be/conll2003/ner/(注释)和NIST(文本)获得。

答案 1 :(得分:2)

Python NLTK可以访问nltk.corpus.conll2000语料库。调用conll2000.iob_words()返回(单词,词性,IOB)三元组列表,其中IOB是内部实体/外部实体/实体开始格式的标记。

在新闻专线风格的背景下,总共有大约25万字。

答案 2 :(得分:1)