Question

我正在使用NLTK包中的基本标记器。我之前使用过OpenNLP的标记系统。我正在切换，因为NLTK有更多的预构建模块，我可以在以后的项目中使用它。但我现在遗失的一件事是标记器给出的“置信度”值。

最初在OpenNLP设置的情况下，我得到了一个数值（范围从0到1），告诉我标记器在决定中有多自信（0完全没有信心，1完全自信）。我想知道是否有人知道NLTK的标记系统中的任何值都可以起作用。它不一定是相同的系统，但是我希望能够进行某种数字排序，这样可以让我轻松看出给定的标签是否应该是我应该仔细检查的。

我在NLTK中所拥有的与置信度值类似的一件事。是标记器的总体准确度评级，但是仅提供预先标记的源，并且不是基于每个字的整个文档。

我的想法是，可能有一些统计数据确定选择哪个标签用于单词，如果我能得到它可以用作类似的措施，但我找不到类似的东西。

谢谢！

Answer 1

NLTK Taggers不为每个令牌提供直接置信度值，但Naive Bayes Tagger允许传递截止概率：

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

如果POS标签的置信度低于95％，则标签将返回None。我发现0.95在精度和召回之间是一个很好的权衡（当然这取决于你的应用程序的需要）。

NLTK内置的POS Taggers是否具有信心值？

1 个答案: