应用错误收集

一般

置信度值（或其他程序中调用的得分）表示模型对所呈现的示例属于某个类的自信程度。它们高度依赖于一般策略和算法的属性。

<强>实施例

最简单的例子是多数分类器，他只是根据原始测试集中的比例为所有观察分配相同的分数

另一个例子是 k-nearest-neighbor-classifier ，其中类i的分数是通过平均到那些属于k-最近邻居并具有的那些例子的距离来计算的。第一类然后在所有班级中对得分进行总和标准化。

在NN的具体示例中，我不知道如何在不检查代码的情况下计算它们。我想这只是输出节点的值，在两个类中进行求和。

信心是否代表概率？

一般没有。为了说明此上下文中的概率意味着：如果一个示例的类“1”的概率为0.3，则具有相似特征/变量值的所有示例中的30％应属于类“1”和70％不应该。

据我所知，他的任务被称为“校准”。为此目的，存在一些通用方法（例如，对分数进行分组并将它们映射到相应分箱的类分数）和一些依赖于分类器（例如，已为SVM发明的Platt Scaling）。一个好的开始是：

置信度度量对应于在初始训练数据集中激活的输出0和1的比例。

E.g。如果你训练集的30％有输出（1; 0）而剩下的70％有输出（0; 1），那么置信度（0）= 30％和置信度（1）= 70％