如何在自己的语料库中测试默认的NLTK NER chunker准确度?
我已经标记了自己语料库的一定百分比。我很好奇是否可以使用默认的NLTK标记来查看该语料库的准确率?
我已经知道了ne_chunker.evaluate()函数,但是我不能立即知道如何输入我自己的语料库进行评估(而不是金标准语料库)
答案 0 :(得分:0)
读入语料库的分块部分并将其转换为NLTK期望的格式,即作为浅Tree
的列表。一旦你以这种形式获得它,你可以将它传递给evaluate()
方法,就像你通过"黄金标准"例子。
evaluate
方法将剥离块,在chunker中运行文本,并将结果与您提供的块进行比较以计算准确性。