通常,如何解释多标签分类器产生的概率?

时间:2016-07-15 15:01:16

标签: machine-learning classification probability

我见过的大多数事情只是使用最大概率,这似乎没问题,但并没有给你任何信心的迹象。相对概率也应该很重要,对吧?让我解释一下:

对于二元分类器,假设您的类别是A和B.

P(A)= 0.01,P(B)= 0.99是非常强烈地表示' A'的分类结果。

P(A)= 0.6,P(B)= 0.4是不太自信的A'分类

一旦你抛出类别' C'在混合中,你可以得到 P(A)= 0.8,P(B)= 0.1,P(C)= 0.1,这是强烈的' A'

但是,您也可以获得以下其中一项:

  1. P(A)= 0.50,P(B)= 0.25,P(C)= 0.25

  2. P(A)= 0.50,P(B)= 0.49,P(C)= 0.01

  3. 现在,第一个案例不太自信,但仍会出现' A' 如果max是我唯一的标准,那么第二种情况将完全相同,但显然不是。

    在案例1中,' A'对结果没有信心,但其中没有别的可能。在案例2中,P(A)仍然是0.5,但它与P(B)基本相同,这意味着我不应该对观察结果有任何信心,因为A'

    是否有能够捕捉这种相对自信概念的功能?我一直试图想出一个解决方案,这个解决方案并不是一个简单的if语句集合,但并没有提出任何好的方法。

1 个答案:

答案 0 :(得分:1)

你可能得到的是支持向量机的想法。在SVM分类器中,我们的目标是找到超平面,该超平面最大化它所分离的两个组中最接近的示例之间的距离。有关详细信息,请查看维基百科或SVM上的任何机器学习文本。在这种方法中,您可以对边界进行分类,使边界具有最大的余量。

对于逻辑回归,我们使用Softmax函数,该函数不是得分(i)/ Sum(得分全部)。它使用指数函数。这也最大化了概率之间的距离。

总的来说,分类算法的目标是给出答案,特别是对于可能含糊不清的情况。当然你可以投入一个额外的属性来说明确切概率是多少,但这通常不是主要目标。