为什么用于手写数字分类的主要成分过多会导致准确性降低

时间:2019-03-20 00:59:24

标签: machine-learning classification pca

我目前正在使用PCA对MNIST数据库进行手写数字识别(每个数字具有约1000个观测值和784个功能)。我发现令人困惑的一件事是,当它具有40台PC时,精度最高。如果从那时起PC数量增加,则精度开始连续下降。

从对PCA的理解出发,我认为组件越多,描述数据集就越好。如果我的PC过多,为什么精度会降低?

1 个答案:

答案 0 :(得分:0)

最后,我认为PCA不能过度拟合数据,因为它不是学习/拟合算法。

您只是试图基于特征向量来投影数据,以捕获沿轴的大部分变化。

该视频应帮助:https://www.youtube.com/watch?v=_UVHneBUBW0