在普通最小二乘估计中,假设样本矩阵X(形状N_samples x N_features)具有"完整列等级"。
显然需要这样,使用Moore-Penrose逆可以将线性回归简化为简单的代数方程。请参阅维基百科OLS文章的这一部分: https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation
理论上这意味着如果X的所有列(即特征)都是线性无关的,我们可以做出一个假设,使OLS易于计算,正确吗?
这在实践中意味着什么? 这是否意味着OLS不可计算并且会导致此类输入数据X出错?或者结果会不好? 由于这个假设不正确,是否存在线性回归失败的经典数据集?
答案 0 :(得分:0)
只有在使用逆(或cholesky分解,或QR或任何其他(数学上)等效于计算逆的方法时)才需要满秩假设。如果你使用Moore-Penrose逆,你仍然会计算答案。当违反完全排名时,不再有唯一的答案,即有许多x最小化
||A*x-b||
您将使用Moore-Penrose计算的那个将是最小范数的x。 See here, for exampleA