我正在尝试重新培训斯坦福名称实体识别器的中国模型。我想知道是否有办法获得原始的中文语料库来培训官方模型? stanford-nlp网页说他们使用了CoNLL,MUC-6,MUC-7和ACE的语料库。我检查了CoNLL2003似乎没有中文语料库,我需要支付MUC-6,MUC-7和ACE。还有其他方法可以获得这些吗?谢谢。
答案 0 :(得分:1)
网页信息适用于英语而非中文。对于中国人,我相信它正在使用OntoNotes语料库 - 或许可以查看相应的研究论文。无论如何,我们不能分发这些语料库,你必须从LDC获得它们。