命名实体识别信心

时间:2018-08-27 08:33:38

标签: nltk stanford-nlp named-entity-recognition

我需要对每个提取的实体具有信心(不是打印而是要获取),但是,我找不到返回信心的方法。

首先,我尝试使用Java上的斯坦福命名实体识别器库和此解决方案:

Display Stanford NER confidence score

但是它不起作用(我猜getCliqueTree方法不可用)。我还尝试过在Python和Stanford NER模型中使用NLTK来提取实体,但同样找不到找到信心的方法。

我知道如何在Spacy上做到这一点

https://github.com/explosion/spaCy/issues/831

但是正如作者所说的那样,效率低下。

那么,请您告诉我如何获取每个提取的实体的概率?

1 个答案:

答案 0 :(得分:0)

通常,NER是令牌级别的分类任务。

通常从每个预测中得出置信度,通常是某些softmax类型的输出。

问题就变成了,我如何才能获得一系列信任?

有多种方法:

  1. 熵[信心就是信息量]
  2. 平均值(平均值)[信心是平均值]
  3. 最小/最大置信度[置信度是最小/最大]

所有这些都给出了不同的答案,没有一个是“更好的”,这实际上取决于您的用例。

如果您想订购可能的实体类型,则可以从以下内容开始:

  1. 假设每个标记具有相同的标签来获得信心
  2. 获取置信度(概率)序列的熵
  3. 按熵排序