我正在构建一种算法,该算法使用BFGS方法在Octave中的二进制数据集的逻辑回归中查找参数。
现在,我正在努力解决一些我认为是一个过度拟合的问题。我为几个数据集运行算法,它实际上收敛到与Octave的fminunc函数相同的结果。然而,对于特定的“数据集类型”,算法收敛于非常高的参数值,与fminunc相反,fminunc给出这些参数的可变量值。我添加了一个正则化项,实际上我实现了算法收敛到fminunc的相同值。
这种特定类型的数据集具有可以用直线完全分开的数据。我的问题是:为什么这是BFGS方法的问题,但对于fminunc来说这不是问题?如果没有正规化,此功能如何避免此问题?我可以在我的算法中实现这个吗?
我的算法代码如下:
function [beta] = Log_BFGS(data, L_0)
clc
close
%************************************************************************
%************************************************************************
%Loading the data:
[n, e] = size(data);
d = e - 1;
n; %Number of observations.
d; %Number of features.
Y = data(:, e); %Labels´ values
X_o = data(:, 1:d);
X = [ones(n, 1) X_o]; %Features values
%Initials conditions:
beta_0 = zeros(e, 1);
beta = [];
beta(:, 1) = beta_0;
N = 600; %Max iterations
Tol = 1e-10; %Tolerance
error = .1;
L = L_0; %Regularization parameter
B = eye(e);
options = optimset('GradObj', 'on', 'MaxIter', 600);
[beta_s] = fminunc(@(t)(costFunction(t, X, Y, L)), beta_0, options);
disp('Beta obtained with the fminunc function');
disp("--------------");
disp(beta_s)
k = 1;
a_0 = 1;
% Define the sigmoid function
h = inline('1.0 ./ (1.0 + exp(-z))');
while (error > Tol && k < N)
beta_k = beta(:, k);
x_0 = X*beta_k;
h_0 = h(x_0);
beta_r = [0 ; beta(:, k)(2:e, :)];
g_k = ((X)'*(h_0 - Y) + L*beta_r)/n;
d_k = -pinv(B)*g_k;
a = 0.1; %I´ll implement an Armijo line search here (soon)
beta(:, k+1) = beta(:, k) + a*d_k;
beta_k_1 = beta(:, k+1);
x_1 = X*beta_k_1;
h_1 = h(x_1);
beta_s = [0 ; beta(:, k+1)(2:e, :)];
g_k_1 = (transpose(X)*(h_1 - Y) + L*beta_s)/n;
s_k = beta(:, k+1) - beta(:, k);
y_k = g_k_1 - g_k;
B = B - B*s_k*s_k'*B/(s_k'*B*s_k) + y_k*y_k'/(s_k'*y_k);
k = k + 1;
error = norm(d_k);
endwhile
%Accuracy of the logistic model:
p = zeros(n, 1);
for j = 1:n
if (1./(1. + exp(-1.*(X(j, :)*beta(:, k)))) >= 0.5)
p(j) = 1;
else
p(j) = 0;
endif
endfor
R = mean(double(p == Y));
beta = beta(:, k);
%Showing the results:
disp("Estimation of logistic regression model Y = 1/(1 + e^(beta*X)),")
disp("using the algorithm BFGS =")
disp("--------------")
disp(beta)
disp("--------------")
disp("with a convergence error in the last iteration of:")
disp(error)
disp("--------------")
disp("and a total number of")
disp(k-1)
disp("iterations")
disp("--------------")
if k == N
disp("The maximum number of iterations was reached before obtaining the desired error")
else
disp("The desired error was reached before reaching the maximum of iterations")
endif
disp("--------------")
disp("The precision of the logistic regression model is given by (max 1.0):")
disp("--------------")
disp(R)
disp("--------------")
endfunction
我为数据集得到的结果如下图所示。如果您需要在这种情况下使用的数据,请告诉我。
答案 0 :(得分:0)
检查目标!
解决方案 - 矢量的值很好,但整个优化是由目标驱动的。您说fminunc which gives reasonable values of these parameters
,但合理的未在此模型中定义。
这不是不可能的,你的低价值和高价值解决方案都可以实现相同的目标。这就是那些解决者只关心的事情(当不使用任何定制术语时)。
所以重要的问题是:是否有一个独特的解决方案(应该禁止这些结果)?只有当您的数据集具有完整排名时!所以也许你的数据缺乏排名,你可以获得两个同样好的解决方案。当然,由于数值问题可能会有轻微的差异,数值问题总是错误的来源,尤其是在更复杂的优化算法中。