当我学习Logistic回归时,我们使用负对数似然来为我们优化参数w。
因此,损失函数(负对数似然)是L(w)。
有一个断言:当训练样本可线性分离时,最佳w的大小可以变为无穷大。
我很困惑: 1.最优w的大小是什么意思? 你能解释为什么w可以无限吗?
答案 0 :(得分:1)
通常被理解为向量的大小是常态(例如欧几里德)。
假设我们进行二元分类,并且类是线性可分的。这意味着
存在w'
,(x1, w') ≥ 0
来自一个类x1
,(x2, w') < 0
。z = a w'
。然后考虑a
获得一些积极的(x1, z) ≥ 0
。很明显(x2, z) < 0
和w'
(我们可以将a
的等式乘以z
并使用点积的线性度),因此您可以看到有分离的超平面({ {1}} s)无界规范(幅度)。
这就是为什么要添加正则化术语。
答案 1 :(得分:1)
简短回答: 这是日志功能的基本特征。
考虑:
log(x), where x spans (0,1)
值log(x)的范围可以采用:
is (-Inf, 0)
更具体地说,你的问题 - 对数似然由下式给出:(见图)
l(w) = y * log( h(x)) + (1 - y) * log (1 - h(x) )
where,
h(x) is a sigmoid function parameters by w:
h(x) = ( 1 + exp{-wx} )^-1
为简单起见,请考虑y = 1的训练示例, 等式变为:
可能性(l): = y * log ( h(x) );
= log ( h(x) )
逻辑回归中的h(x)可以由sigmoid函数表示。 它有一个范围(0,1)
因此, 范围(l):
(log (0), log(1) ) = (-Inf, 0)
(l) spans the range (-Inf, 0)
以上简化仅考虑(y = 1)情况。如果考虑整个对数似然函数(即y = 1&amp; y = 0),您将看到倒碗状成本函数。因此,存在最大权重,其将最大化对数似然(1)或最小化负对数似然(-1)