我知道softmax回归的形式,但我很好奇为什么它有这样的名字?或者只是出于某些历史原因?
答案 0 :(得分:4)
最多两个数字max(x,y)
可能有尖角/陡峭边缘,有时这是一个不需要的属性(例如,如果你想计算渐变)。
为了柔化max(x,y)
的边缘,可以使用具有更柔和边缘的变体:softmax函数。它的核心仍然是 max 功能(嗯,确切地说,它是它的近似值)但是平滑了。
如果还不清楚,here's读得很好。
答案 1 :(得分:3)
我们假设您有一组标量xi
,并且您想要计算它们的加权总和,为每个wi
提供权重xi
,以便权重总计为1(如离散概率)。一种方法是将wi=exp(a*xi)
设置为某个正常数a
,然后将权重标准化为1。如果a=0
您只获得常规样本平均值。另一方面,对于a
的非常大的值,您获得max
运算符,即加权和将只是最大的xi
。因此,改变a
的值会给你一个" soft",或者从常规平均到选择最大值的持续方式。如果您已经知道SoftMax回归是什么,那么加权平均值的函数形式对您来说应该很熟悉。