NLTK内置的POS Taggers是否具有信心值?

时间:2013-01-07 17:31:53

标签: python statistics nltk tagging opennlp

我正在使用NLTK包中的基本标记器。我之前使用过OpenNLP的标记系统。我正在切换,因为NLTK有更多的预构建模块,我可以在以后的项目中使用它。但我现在遗失的一件事是标记器给出的“置信度”值。

最初在OpenNLP设置的情况下,我得到了一个数值(范围从0到1),告诉我标记器在决定中有多自信(0完全没有信心,1完全自信)。我想知道是否有人知道NLTK的标记系统中的任何值都可以起作用。它不一定是相同的系统,但是我希望能够进行某种数字排序,这样可以让我轻松看出给定的标签是否应该是我应该仔细检查的。

我在NLTK中所拥有的与置信度值类似的一件事。是标记器的总体准确度评级,但是仅提供预先标记的源,并且不是基于每个字的整个文档。

我的想法是,可能有一些统计数据确定选择哪个标签用于单词,如果我能得到它可以用作类似的措施,但我找不到类似的东西。

谢谢!

1 个答案:

答案 0 :(得分:3)

NLTK Taggers不为每个令牌提供直接置信度值,但Naive Bayes Tagger允许传递截止概率:

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

如果POS标签的置信度低于95%,则标签将返回None。我发现0.95在精度和召回之间是一个很好的权衡(当然这取决于你的应用程序的需要)。