Question

我目前正在尝试在MATLAB中实现涉及logistic loss function的机器学习算法。不幸的是，由于数字溢出，我遇到了一些麻烦。

通常，对于给定的输入s，逻辑函数的值为：

 log(1 + exp(s))

和逻辑损失函数的斜率为：

 exp(s)./(1 + exp(s)) = 1./(1 + exp(-s))

在我的算法中，s = X*beta的值。此处X是一个矩阵，每个数据点包含N个数据点和P个要素（即size(X)=[N,P]），而beta是P的向量每个特征的系数，使size(beta)=[P 1]。

我特别感兴趣的是计算给定值beta的Logistic函数的平均值和梯度。

Logistic函数w.r.t的平均值为beta的值为：

 L = 1/N * sum(log(1+exp(X*beta)),1)

Logistic函数斜率的平均值w.r.t.值b为：

 dL = 1/N * sum((exp(X*beta)./(1+exp(X*beta))' X, 1)'

请注意size(dL) = [P 1].

我的问题是这些表达式不断产生数值溢出。这个问题实际上来自于exp(s)=Inf s>1000和exp(s)=0 s<-1000.时的s

我正在寻找一种解决方案，使{{1}}可以采用浮点运算中的任何值。理想情况下，我也非常感谢能够以矢量化/高效方式评估值和梯度的解决方案。

Answer 1

以下近似值如何：

- 对于计算L，如果s很大，那么exp(s)将远大于1：

1 + exp(s) ≅ exp(s)

因此

log(1 + exp(s)) ≅ log(exp(s)) = s.

如果s很小，则使用exp（）<{p>的Taylor series

exp(s) ≅ 1 + s

并使用泰勒系列的log（）

log(1 + exp(s)) ≅ log(2 + s) ≅ log(2) + s / 2.

- 用于计算dL，用于大型s

exp(s) ./ (1 + exp(s)) ≅ 1

和小s

exp(s) ./ (1 + exp(s)) ≅ 1/2 + s / 4.

- 计算L的代码可能就像这样：

s = X*beta;
l = log(1+exp(s));
ind = isinf(l);
l(ind) = s(ind);
ind = (l == 0);
l(ind) = log(2) + s(ind) / 2;
L = 1/N * sum(l,1)

Answer 2

通过翻译很多单词，我们可以简化论证，说明原始表达式

log(1 + exp(s))

可以改写为

log(exp(s)*(exp(-s) + 1))
= log(exp(s)) + log(exp(-s) + 1)
= s + log(exp(-s) + 1)

这会阻止溢出发生 - 它不会阻止下溢，但是到了发生的时间，你就得到了答案（即s）。你不能只使用它而不是原版，因为它仍会给你带来问题。但是，我们现在有了一个可以编写的函数的基础，该函数将是准确的并且不会产生上溢/下溢：

function LL = logistic(s)
if s<0
  LL = log(1 + exp(s));
else
  LL = s + logistic(-s);

我认为这保持了相当好的准确性。

编辑现在问你的问题 - 使这个矢量化，并允许计算斜率。我们一次拿这些：

function LL = logisticVec(s)
  LL = zeros(size(s));
  LL(s<0) = log(1 + exp(s(s<0)));
  LL(s>=0) = s(s>=0) + log(1 + exp(-s(s>=0)));

获得您想要的平均值：

L = logisticVec(X*beta) / N;

坡度有点棘手;请注意我相信你的表达可能有一个拼写错误（缺少乘法符号）。

dL/dbeta = sum(X * exp(X*beta) ./ (1 + exp(X*beta))) / N;

如果我们按exp(X*beta)将上下划分

dL = sum(X ./ (exp(-X*beta) + 1)) / N;

再一次，溢出已经消失，我们留下了下溢 - 但由于下溢值已添加1，因此产生的错误无关紧要。