已知和未知单词的POS准确度

时间:2015-01-01 03:00:18

标签: nlp part-of-speech

如何计算词性标注中已知和未知单词的准确度?例如,对于已知单词,是否将正确标记的已知单词除以所有已知单词?还有其他方法吗?

1 个答案:

答案 0 :(得分:0)

我认为你的方法正确。您需要的只是一个词典,用于确定给定单词是已知单词还是未知单词。 RDRPOSTagger提供了一段代码来计算已知单词和未知单词的标记准确度。请参阅computeAccuracies(lexicon, goldCorpus, taggedCorpus)包中Eval.py模块中的函数Utility

您可能希望查看this paper,其中包含13种语言的标记结果(已知单词和未知单词),包括保加利亚语,捷克语,荷兰语,英语,法语,德语,印地语,意大利语,葡萄牙语,西班牙语,瑞典语,泰语和越南语。