对数丢失输出大于1

时间:2016-01-26 12:25:23

标签: machine-learning scikit-learn metric loss

我为欺诈领域的文件二进制分类准备了几个模型。我计算了所有型号的对数损失。我认为它主要是测量预测的置信度,并且对数损失应该在[0-1]的范围内。我认为,当结果 - 确定课程不足以进行评估时,它是分类中的一项重要措施。因此,如果两个模型具有非常接近的acc,recale和precision,但是具有较低的对数损失函数,则应该选择它,因为在决策过程中没有其他参数/​​度量(例如时间,成本)。

决策树的日志丢失为1.57,对于所有其他模型,它在0-1范围内。我如何解释这个分数?

1 个答案:

答案 0 :(得分:30)

记住日志丢失没有上限很重要。记录丢失存在于[0,∞)范围

Kaggle我们可以找到日志丢失的公式。

Log Loss

其中 y ij 对于正确的类是1而对于其他类是0和 p ij 是为该类分配的概率。

如果我们看一下平均日志损失超过1的情况,那就是 log p ij )< -1当 i 是真正的类时。这意味着该给定类的预测概率将小于 exp ( - 1)或大约0.368。因此,如果您的模型仅给出实际类别的概率估计值低于36%,则可以预期日志丢失大于1。

我们还可以通过绘制给定各种概率估计的对数损失来看到这一点。

Log Loss curve