解释多类逻辑回归中预测的概率

时间:2018-01-26 10:09:58

标签: python machine-learning scikit-learn logistic-regression multiclass-classification

我有一个如下所示的数据集,其中A,B,C,D,E是特征,并且' T'是目标变量。

A     B    C     D     E       T
32    22   55    76    98      3
12    41   90    56    33      2
31    78   99    67    89      1
51    85   71    21    37      1
......
......

现在,我已经使用Scikit Learn应用了多类逻辑回归分类器,并获得了预测值和概率矩阵: -

 A     B    C     D     E       T   Predicted    Probablity
32    22   55    76    98       3     3           0.35
12    41   90    56    33       2     1           0.68
31    78   99    67    89       1     3           0.31
51    85   71    21    37       1     1           0.25

现在只想问我如何解释结果的可能性, 1)到目前为止我已经研究过python默认情况下事件的概率是1.所以如果是这样的话,0.35被认为是事件1的可能性吗? 要么 2)值为0.35是第1种情况的可能性属于类" 3"? 我怎么能计算剩下的两个班级的可能性。类似的东西: -

 A     B    C     D     E       T   Predicted     P_1    P_2    P_3
32    22   55    76    98       3     3           0.35   0.20   0.45
12    41   90    56    33       2     1           0.68   0.10   0.22
31    78   99    67    89       1     3           0.31   0.40   0.29
51    85   71    21    37       1     1           0.25   0.36   0.39

2 个答案:

答案 0 :(得分:0)

from sklearn.linear_classifier import LogisticRegression

lr = LogisticRegression(random_state = 1)
lr.fit(x_train,y_train)

我们符合我们的培训数据。

lr.predict_proba(x_test)

假设数据集包含三个类。输出类似于:

array([[  2.69011925e-02,   5.40807755e-01,   4.32291053e-01],
   [  9.32525056e-01,   6.73606657e-02,   1.14278375e-04],
   [  5.24023874e-04,   3.24718067e-01,   6.74757909e-01],
   [  4.75066650e-02,   5.86482429e-01,   3.66010906e-01],
   [  1.83396339e-02,   4.77753541e-01,   5.03906825e-01],
   [  8.82971089e-01,   1.16720108e-01,   3.08803089e-04],
   [  4.64149328e-02,   7.17011933e-01,   2.36573134e-01],
   [  1.65574625e-02,   3.29502329e-01,   6.53940209e-01],
   [  8.70375470e-01,   1.29512862e-01,   1.11667567e-04],
   [  8.51328361e-01,   1.48584654e-01,   8.69851797e-05]])

在给定的输出数组中,每行有3列,显示每个类的相应概率。每行代表一个样本。

lr.predict_proba(x_test[0,:]) **OR** lr.predict_proba(x_test)[0,:]

输出:

array([ 0.02690119,  0.54080775,  0.43229105])

即该样本的概率。

答案 1 :(得分:0)

不确定结果表的来源(哪个API调用),但您的第二个假设是正确的。在下表中

 A     B    C     D     E       T   Predicted    Probablity
32    22   55    76    98       3     3           0.35
12    41   90    56    33       2     1           0.68
31    78   99    67    89       1     3           0.31
51    85   71    21    37       1     1           0.25

你得到的结果是我假设的4个不同的样本(实例),目标变量(正确的类),预测类和预测类的概率。

我认为您的代码中的索引例程存在问题。让我们关注最后一行

 A     B    C     D     E       T   Predicted    Probablity
51    85   71    21    37       1     1           0.25

预测班级的概率为0.2525%,您有三类问题。这意味着其他两个类的总概率质量为1 - 0.25 = 0.75,如果将75%均匀地除去剩下的两个类(假设不是分类器的预测值),则得{{1} } { - 0.75 / 2 = 0.37537.5%2的概率(您预测3)。当然,分类器对于12的概率不会相等,因此一个会降低,而另一个会更高。问题是3已经更高而不是预测37.5%的概率,这在逻辑上是不可能的。如果分类器将概率1提供给类37.5%而将2提供给类25%,那么预测肯定应该是类1,而不是类2就像你上面一样。

逻辑回归的输出是一个概率表,每个实例都有一行,每个类有一列,例如

1

第一个实例的第3个类的概率位于第一行probs = array([[ 2.69011925e-02, 5.40807755e-01, 4.32291053e-01], [ 9.32525056e-01, 6.73606657e-02, 1.14278375e-04], [ 5.24023874e-04, 3.24718067e-01, 6.74757909e-01], [ 8.70375470e-01, 1.29512862e-01, 1.11667567e-04], [ 8.51328361e-01, 1.48584654e-01, 8.69851797e-05]]) 的第三列。如果你想要数组中的预测类,你可以probs[0, 2],它为你提供predicted_idx = np.argmax(probs, axis=1)上面的数据,这是最高预测概率的列索引。然后,您可以通过

提取仅预测类别的概率
array([1, 0, 2, 0, 0])

最后,您必须记住结果表中的列索引不一定与数据集索引的方式相对应。如果您使用类似probs[range(probs.shape[0]), predicted_idx] >> array([ 0.54080776, 0.93252506, 0.67475791, 0.87037547, 0.85132836]) 的内容,可能是您认为在索引0处的类实际上不在索引0处。您可以从sklearn.preprocessing.LabelEncoder检查 - 该数组的顺序对应从逻辑回归得到的概率数组中的列索引。