最大熵分类中的“共识”

时间:2013-12-08 04:18:30

标签: machine-learning nlp classification maxent

想象一下,我们有三个类:A,B和C,我们使用标准MaxEnt分类器对文档'd'进行分类,并提出以下概率:

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

我觉得这在某种程度上与这组概率非常不同:

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

有没有办法对这两者之间的差异进行评分?

2 个答案:

答案 0 :(得分:3)

您面临的问题通常被称为分类器中的“共识”。由于多标记MaxEnt可以被视为N个独立分类器,您可以将其视为一组模型,为不同的类“投票”。

现在,有许多衡量这种“共识”的措施,包括:

  • “幼稚”计算保证金 - “获胜”类概率与第二项之间的差异 - 保证金越大 - 对分类越有信心
  • 熵 - 得到的概率分布的熵越小,决策越自信
  • 一些涉及KL分歧等的方法。

一般来说,你应该考虑检测所得分布的“均匀性”(暗示不太自信的决定)或“尖峰”(表示更有信心的分类)的方法。

答案 1 :(得分:1)

您正在寻找的是交叉熵:具体而言,您希望计算分类器输出的一个输出近似真实分布的成本。在许多情况下,概率多类分类器将直接优化它。看看this