我们有一个训练有素的分类器"。这不一定是分类器,如SVM,MLP等。
分类器返回使用置信度得分评估的输出列表。
根据输入,输出可能如下所示:
在这种情况下,我们会将分类器结果视为“坏”",因为所有输出的所有置信度得分的距离为"低"。
根据输入的不同,输出可能如下所示:
在这种情况下,我们会将分类器结果视为“好”",因为所有输出的所有置信度得分的距离都是"高"。
我们可以通过系统运行很多输入。
有没有办法找出什么是足够高的"" 距离以便我可以说该模型足够自信"?
这不是用于比较算法,而是随着时间的推移系统性能。