matlab - 为什么PCA后分类器的准确度会下降，即使总方差的99％被覆盖了？

主成分不一定与分类准确性有任何关联。可能存在2变量情况，其中99％的方差对应于第一PC但该PC与数据中的基础类无关。而第二台PC（仅占方差的1％）是可以分类的第二台PC。如果您只保留第一台PC，那么您将失去实际提供对数据进行分类的功能。

在实践中，较小（较低差异）的PC通常与噪声相关联，因此可以从中删除它们，但不能保证这一点。

考虑一个你有两个变量的情况：一个人的质量（以克为单位）和体温（以摄氏度为单位）。您想预测哪些人患有流感，哪些患者没有流感。在这种情况下，体重具有更大的方差，但可能与流感没有相关性，而具有低方差的温度与流感有很强的相关性。在主成分转换之后，第一台PC将与质量强烈对齐（因为它具有更大的方差），因此如果您放弃第二台PC，将几乎失去所有分类准确度。

重要的是要记住，Principal Components是数据的无监督转换。在计算变换时，它不会考虑训练数据的标签（与Fisher linear discriminant相反）。

为什么PCA后分类器的准确度会下降，即使总方差的99％被覆盖了？

1 个答案: