machine-learning - 为什么线性变换可以提高高维数据分类的准确性和效率？

为什么线性变换可以提高高维数据分类的准确性和效率？

时间：2014-04-24 07:53:14

标签： machine-learning classification linear-algebra matrix-multiplication projection-matrix

令X为m×n（m：记录数，n：属性数）数据集。当属性数量n大并且数据集X有噪声时，分类变得更复杂并且分类准确度降低。解决该问题的一种方法是使用线性变换，即，在Y = XR上执行分类，其中R是n×p矩阵，并且p <= n。我想知道线性变换如何简化分类？如果我们在X有噪声的情况下对变换后的数据Y进行分类，为什么分类精度会增加？

1 个答案:

答案 0 :(得分：0)

并非每种线性变换都有效，但有些线性变换有时很有用。具体而言，principal component analysis (PCA)和Factor Analysis是通常用于降维的线性变换。

基本思想是，大多数信息可能包含在数据集特征的某些线性组合中，并且通过抛弃其余信息，我们强迫自己使用更简单的模型/过度配合。

这并不总是那么好。例如，即使其中一个特征实际上是我们试图分类的东西，它仍然可以被PCA丢弃，因为它具有低可变性 - 因此丢失了重要信息。