想象一下,我们有三个类:A,B和C,我们使用标准MaxEnt分类器对文档'd'进行分类,并提出以下概率:
P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25
我觉得这在某种程度上与这组概率非常不同:
P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01
有没有办法对这两者之间的差异进行评分?
答案 0 :(得分:3)
您面临的问题通常被称为分类器中的“共识”。由于多标记MaxEnt可以被视为N个独立分类器,您可以将其视为一组模型,为不同的类“投票”。
现在,有许多衡量这种“共识”的措施,包括:
一般来说,你应该考虑检测所得分布的“均匀性”(暗示不太自信的决定)或“尖峰”(表示更有信心的分类)的方法。
答案 1 :(得分:1)
您正在寻找的是交叉熵:具体而言,您希望计算分类器输出的一个输出近似真实分布的成本。在许多情况下,概率多类分类器将直接优化它。看看this。