我在N
维度中有一组k
点作为大小为N X k
的矩阵。
如何通过这些点找到最佳拟合线?该线将是k
维度的平面(hyerpplane)。它将具有k
系数和一个偏差项。
fit
等现有功能似乎只适用于2维或3维的点。
答案 0 :(得分:4)
您可以使用主成分分析将超平面(或任何低维仿射空间)拟合到一组D维数据。这是将平面拟合到一组3D数据的示例。这在MATLAB documentation中有更详细的解释,但我试图构建我能做的最简单的例子。
% generate some random correlated data
D = 3;
mu = zeros(1,D);
sqrt_sig = randn(D);
sigma = sqrt_sig'*sqrt_sig;
% generate 50 points in a D x 50 matrix
X = mvnrnd(mu, sigma, 50)';
% perform PCA
coeff = pca(X');
% The last principal component is normal to the best fit plane and plane goes through mean of X
a = coeff(:,D);
b = -mean(X,2)'*a;
% plane defined by a'*x + b = 0
dist = abs(a'*X+b) / norm(a);
mse = mean(dist.^2)
编辑:添加了D = 3的结果示例图。我在这里利用了其他主要组件的正交性。如果你想要它只是为了证明飞机确实很适合数据,那么忽略代码。
% plot in 3D
X0 = bsxfun(@minus,X,mean(X,2));
b1 = coeff(:,1); b2 = coeff(:,2);
y1 = b1'*X0; y2 = b2'*X0;
y1_min = min(y1); y1_max = max(y1);
y1_span = y1_max - y1_min;
y2_min = min(y2); y2_max = max(y2);
y2_span = y2_max - y2_min;
pad = 0.2;
y1_min = y1_min - pad*y1_span;
y1_max = y1_max + pad*y1_span;
y2_min = y2_min - pad*y2_span;
y2_max = y2_max + pad*y2_span;
[y1_m,y2_m] = meshgrid(linspace(y1_min,y1_max,5), linspace(y2_min,y2_max,5));
grid = bsxfun(@plus, bsxfun(@times,y1_m(:)',b1) + bsxfun(@times,y2_m(:)',b2), mean(X,2));
x = reshape(grid(1,:),size(y1_m));
y = reshape(grid(2,:),size(y1_m));
z = reshape(grid(3,:),size(y1_m));
figure(1); clf(1);
surf(x,y,z,'FaceColor','black','FaceAlpha',0.3,'EdgeAlpha',0.6);
hold on;
plot3(X(1,:),X(2,:),X(3,:),' .');
axis equal;
axis vis3d;
Edit2 :当我说“主要成分”时,我的措辞有点草率(或者说完全错误)。我实际上指的是主成分表示的正交基矢量。
答案 1 :(得分:3)
这是一个更简单的解决方案,只使用MATLAB's \
operator。我们首先在k
维度中定义一个平面:
% 0 = a + x(1) * b(1) + x(2) * b(2) + ... + x(k) * 1
k = 8;
a = randn(1);
b = randn(k-1,1);
(请注意,我们假设b(k)=1
,您始终可以将平面参数乘以任意值,而无需更改平面。)
接下来,我们在此平面内生成N
个随机点:
N = 1000;
x = rand(N,k-1);
x(:,k) = -(a + x * b);
...对不起,这不是在飞机上生成随机点的最佳方式,但这对于此处的演示来说已经足够了。添加噪点:
x = x + 0.05*randn(size(x));
为了找到平面的参数,我们求解方程组
% a + x(1:k-1) * b == -x(k)
在最小二乘意义上。 a
和b
是未知数。我们可以将左侧重写为[1,x(1:k-1)] * [a;b]
。如果我们有一个矩阵方程M*p=v
,我们可以通过编写p=M\v
来解决p:
p = [ones(N,1),x(:,1:k-1)]\(-x(:,k));
disp(['ground truth: [a,b,1] = ',mat2str([a,b',1],3)]);
disp(['estimated : [a,b,1] = ',mat2str([p',1],3)]);
这给出了输出:
ground truth: [a,b,1] = [-1.35 -1.44 -1.48 1.17 0.226 -0.214 0.234 -1.59 1] estimated : [a,b,1] = [-1.41 -1.38 -1.43 1.14 0.219 -0.195 0.221 -1.54 1]
数据集中的噪点越少或点越多,误差就越小!