Question

当我学习Logistic回归时，我们使用负对数似然来为我们优化参数w。

因此，损失函数（负对数似然）是L（w）。

有一个断言：当训练样本可线性分离时，最佳w的大小可以变为无穷大。

我很困惑： 1.最优w的大小是什么意思？你能解释为什么w可以无限吗？

Answer 1

通常被理解为向量的大小是常态（例如欧几里德）。
假设我们进行二元分类，并且类是线性可分的。这意味着存在w'，(x1, w') ≥ 0来自一个类x1，(x2, w') < 0。z = a w'。然后考虑a获得一些积极的(x1, z) ≥ 0。很明显(x2, z) < 0和w'（我们可以将a的等式乘以z并使用点积的线性度），因此您可以看到有分离的超平面（{ {1}} s）无界规范（幅度）。

这就是为什么要添加正则化术语。

Answer 2

简短回答：这是日志功能的基本特征。

考虑：

                  log(x), where x spans (0,1)

值log（x）的范围可以采用：

                         is (-Inf, 0)

更具体地说，你的问题 - 对数似然由下式给出:(见图）

  l(w)  =   y * log( h(x)) + (1 - y) * log (1 - h(x) )

  where,

      h(x) is a sigmoid function parameters by w:
               h(x)  =  ( 1 + exp{-wx} )^-1

为简单起见，请考虑y = 1的训练示例，等式变为：

可能性（l）：

            = y * log ( h(x) );

            =     log ( h(x) )

逻辑回归中的

h（x）可以由sigmoid函数表示。它有一个范围（0,1）

因此，范围（l）：

           (log (0), log(1) )  = (-Inf, 0)

           (l) spans the range (-Inf, 0)

以上简化仅考虑（y = 1）情况。如果考虑整个对数似然函数（即y = 1＆amp; y = 0），您将看到倒碗状成本函数。因此，存在最大权重，其将最大化对数似然（1）或最小化负对数似然（-1）

Logistic回归和最优参数w

2 个答案: