答案 0 :(得分:6)
http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
有一个语料库列表该列表上的CoNLL 2003语料库是免费的,可从http://www.cnts.ua.ac.be/conll2003/ner/(注释)和NIST(文本)获得。
答案 1 :(得分:2)
Python NLTK可以访问nltk.corpus.conll2000
语料库。调用conll2000.iob_words()
返回(单词,词性,IOB)三元组列表,其中IOB是内部实体/外部实体/实体开始格式的标记。
在新闻专线风格的背景下,总共有大约25万字。
答案 2 :(得分:1)