应用错误收集

我不确定我是否正确使用PCA！我有p个特征和n个观察（实例）。我将它们放在一个nxp矩阵X中。我执行均值归一化，得到归一化矩阵B.我计算pxp协方差矩阵的特征值和特征向量C =（1 /（n-1））B * .B其中*表示共轭转置。

对应于递减有序的特征值的特征向量在pxp矩阵E中。假设我想减少从p到k的属性数量。我使用公式X_new = B.E_reduced，其中E_reduced是通过选择E的前k列产生的。这是我的问题：

1）应该是X_new = B.E_reduced还是X_new = X.E_reduced？

2）我应该在测试阶段重复上述计算吗？如果测试阶段类似于训练阶段，则不会获得加速，因为我必须在测试阶段计算每个实例的所有p特征，并且由于特征向量计算开销，PCA使算法变慢。

3）应用PCA后，我注意到准确度下降了。这与数字k（我设置k = p / 2）或我使用线性PCA而不是内核PCA的事实有关吗？选择数字k的最佳方法是什么？我读到我可以找到k个特征值的总和与所有特征值的总和之比，并根据这个比率做出决定。