标签: classification softmax calibration reliability
分类模型中的可靠性评分确实很重要,并且校准变量(例如温度缩放)是改善它们的一个步骤,尽管不是很完美。
如果引入更多训练数据,使用温度缩放后,模型的校准是否会改善?如果此数据可以提高准确性,则似乎是这种情况。但是,如果不影响准确性,情况是否还会如此?
如果网络中有更多类别,使用温度缩放后,模型的校准会改善吗?当然,每个班级都有相同数量的训练样本。