应用错误收集

首先，就术语而言，我说更成熟的术语是multinomial logistic regression。

Softmax函数是计算概率的自然选择，因为它corresponds to MLE。 Cross-entropy loss也有一个概率解释 - 即＃＆＃34;距离＆＃34;两个分布之间（输出和目标）。你建议的是以人为的方式区分类 - 输出二进制分布并以某种方式将它与多类分布进行比较。从理论上讲，这是可能的，也可能有效，但肯定有缺点。例如，训练更难。

假设输出为0.2（即A类），基本事实为B类。您想告诉网络向更高的值转移。下一次，输出为0.7 - 网络实际学习并向正确的方向移动，但您再次惩罚它。实际上，在您的示例中存在不稳定点（0.3和0.6）网络需要时间来学习作为关键点。两个值 - 0.2999999和0.3000001几乎无法区分网络，但它们会确定结果是否正确。

一般而言，作为概率分布的输出总是优于直接鉴别，因为它提供了更多信息。

Logistic Regression to support multiple classes directly

1 个答案: