Logistic回归和最优参数w

时间:2014-09-20 06:31:28

标签: machine-learning logistic-regression

当我学习Logistic回归时,我们使用负对数似然来为我们优化参数w。

因此,损失函数(负对数似然)是L(w)。

有一个断言:当训练样本可线性分离时,最佳w的大小可以变为无穷大。

我很困惑: 1.最优w的大小是什么意思? 你能解释为什么w可以无限吗?

2 个答案:

答案 0 :(得分:1)

  1. 通常被理解为向量的大小是常态(例如欧几里德)。

  2. 假设我们进行二元分类,并且类是线性可分的。这意味着 存在w'(x1, w') ≥ 0来自一个类x1(x2, w') < 0z = a w'。然后考虑a获得一些积极的(x1, z) ≥ 0。很明显(x2, z) < 0w'(我们可以将a的等式乘以z并使用点积的线性度),因此您可以看到有分离的超平面({ {1}} s)无界规范(幅度)。

  3. 这就是为什么要添加正则化术语。

答案 1 :(得分:1)

简短回答: 这是日志功能的基本特征。

考虑:

                  log(x), where x spans (0,1)

值log(x)的范围可以采用:

                         is (-Inf, 0)

更具体地说,你的问题 - 对数似然由下式给出:(见图)

  l(w)  =   y * log( h(x)) + (1 - y) * log (1 - h(x) )

  where,

      h(x) is a sigmoid function parameters by w:
               h(x)  =  ( 1 + exp{-wx} )^-1    

为简单起见,请考虑y = 1的训练示例, 等式变为:

可能性(l):

            = y * log ( h(x) );

            =     log ( h(x) )
逻辑回归中的

h(x)可以由sigmoid函数表示。 它有一个范围(0,1)

因此, 范围(l):

           (log (0), log(1) )  = (-Inf, 0)

           (l) spans the range (-Inf, 0)

以上简化仅考虑(y = 1)情况。如果考虑整个对数似然函数(即y = 1&amp; y = 0),您将看到倒碗状成本函数。因此,存在最大权重,其将最大化对数似然(1)或最小化负对数似然(-1)