为什么线性变换可以提高高维数据分类的准确性和效率?

时间:2014-04-24 07:53:14

标签: machine-learning classification linear-algebra matrix-multiplication projection-matrix

令X为m×n(m:记录数,n:属性数)数据集。当属性数量n大并且数据集X有噪声时,分类变得更复杂并且分类准确度降低。解决该问题的一种方法是使用线性变换,即,在Y = XR上执行分类,其中R是n×p矩阵,并且p <= n。我想知道线性变换如何简化分类?如果我们在X有噪声的情况下对变换后的数据Y进行分类,为什么分类精度会增加?

1 个答案:

答案 0 :(得分:0)

并非每种线性变换都有效,但有些线性变换有时很有用。具体而言,principal component analysis (PCA)Factor Analysis是通常用于降维的线性变换。

基本思想是,大多数信息可能包含在数据集特征的某些线性组合中,并且通过抛弃其余信息,我们强迫自己使用更简单的模型/过度配合。

这并不总是那么好。例如,即使其中一个特征实际上是我们试图分类的东西,它仍然可以被PCA丢弃,因为它具有低可变性 - 因此丢失了重要信息。