应用错误收集

对数丢失输出大于1

时间：2016-01-26 12:25:23

标签： machine-learning scikit-learn metric loss

我为欺诈领域的文件二进制分类准备了几个模型。我计算了所有型号的对数损失。我认为它主要是测量预测的置信度，并且对数损失应该在[0-1]的范围内。我认为，当结果 - 确定课程不足以进行评估时，它是分类中的一项重要措施。因此，如果两个模型具有非常接近的acc，recale和precision，但是具有较低的对数损失函数，则应该选择它，因为在决策过程中没有其他参数/度量（例如时间，成本）。

决策树的日志丢失为1.57，对于所有其他模型，它在0-1范围内。我如何解释这个分数？

1 个答案:

答案 0 :(得分：30)

记住日志丢失没有上限很重要。记录丢失存在于[0，∞）范围

从Kaggle我们可以找到日志丢失的公式。

其中 y _ij对于正确的类是1而对于其他类是0和 p _ij是为该类分配的概率。

如果我们看一下平均日志损失超过1的情况，那就是 log （ p _ij）＆lt; -1当 i 是真正的类时。这意味着该给定类的预测概率将小于 exp （ - 1）或大约0.368。因此，如果您的模型仅给出实际类别的概率估计值低于36％，则可以预期日志丢失大于1。

我们还可以通过绘制给定各种概率估计的对数损失来看到这一点。