我目前正在使用PCA对MNIST数据库进行手写数字识别(每个数字具有约1000个观测值和784个功能)。我发现令人困惑的一件事是,当它具有40台PC时,精度最高。如果从那时起PC数量增加,则精度开始连续下降。
从对PCA的理解出发,我认为组件越多,描述数据集就越好。如果我的PC过多,为什么精度会降低?
答案 0 :(得分:0)
为了确定最佳的组件数量,您需要绘制elbow curve
https://en.wikipedia.org/wiki/Elbow_method_(clustering)
PCA背后的想法是通过找到主要成分来减少数据的维数。
最后,我认为PCA不能过度拟合数据,因为它不是学习/拟合算法。
您只是试图基于特征向量来投影数据,以捕获沿轴的大部分变化。