我为欺诈领域的文件二进制分类准备了几个模型。我计算了所有型号的对数损失。我认为它主要是测量预测的置信度,并且对数损失应该在[0-1]的范围内。我认为,当结果 - 确定课程不足以进行评估时,它是分类中的一项重要措施。因此,如果两个模型具有非常接近的acc,recale和precision,但是具有较低的对数损失函数,则应该选择它,因为在决策过程中没有其他参数/度量(例如时间,成本)。
决策树的日志丢失为1.57,对于所有其他模型,它在0-1范围内。我如何解释这个分数?
答案 0 :(得分:30)
记住日志丢失没有上限很重要。记录丢失存在于[0,∞)范围
从Kaggle我们可以找到日志丢失的公式。
其中 y ij 对于正确的类是1而对于其他类是0和 p ij 是为该类分配的概率。
如果我们看一下平均日志损失超过1的情况,那就是 log ( p ij )< -1当 i 是真正的类时。这意味着该给定类的预测概率将小于 exp ( - 1)或大约0.368。因此,如果您的模型仅给出实际类别的概率估计值低于36%,则可以预期日志丢失大于1。
我们还可以通过绘制给定各种概率估计的对数损失来看到这一点。