如何解释SoftMax回归中的“soft”和“max”?

时间:2015-06-04 07:45:45

标签: machine-learning softmax

我知道softmax回归的形式,但我很好奇为什么它有这样的名字?或者只是出于某些历史原因?

2 个答案:

答案 0 :(得分:4)

最多两个数字max(x,y)可能有尖角/陡峭边缘,有时这是一个不需要的属性(例如,如果你想计算渐变)。

为了柔化max(x,y)的边缘,可以使用具有更柔和边缘的变体:softmax函数。它的核心仍然是 max 功能(嗯,确切地说,它是它的近似值)但是平滑了。

如果还不清楚,here's读得很好。

答案 1 :(得分:3)

我们假设您有一组标量xi,并且您想要计算它们的加权总和,为每个wi提供权重xi,以便权重总计为1(如离散概率)。一种方法是将wi=exp(a*xi)设置为某个正常数a,然后将权重标准化为1。如果a=0您只获得常规样本平均值。另一方面,对于a的非常大的值,您获得max运算符,即加权和将只是最大的xi。因此,改变a的值会给你一个" soft",或者从常规平均到选择最大值的持续方式。如果您已经知道SoftMax回归是什么,那么加权平均值的函数形式对您来说应该很熟悉。