我知道 PCA并没有告诉您数据集的哪些功能最重要,但哪些功能组合保持最大差异。
你怎么能使用这样一个事实,即PCA旋转数据集的方式是它沿第一维度的变化最大,第二维最多,依此类推以减少数据集的维数?
我的意思是,更深入,前N个特征向量如何用于将特征向量转换为保持大部分方差的低维表示?
答案 0 :(得分:2)
让X
为N x d
矩阵,其中每行X_{n,:}
是数据集中的向量。
然后X'X
是协方差矩阵,特征分解给出X'X=UDU'
其中U
是具有d x d
和{{1}的特征向量的U'U=I
矩阵}是特征值的D
对角矩阵。
特征分解的形式意味着d x d
意味着如果您将数据集转换为U'X'XU=U'UDU'U=D
,则新数据集U
将具有对角协方差矩阵。
如果特征值从最大到最小排序,这也意味着第一个变换特征的平均值(由表达式XU
给出)将大于第二个,第二个大于第三个等等。
如果我们将数据集的特征从最大平均值排序到最小平均值,那么如果我们只是去除具有小平均值的特征(并且大平均值的相对大小远大于小平均值),然后我们没有丢失太多信息。这就是概念。