我正在研究神经网络,我正在创建一个感知器,它将作为带有面部图像数据集的分类器。在将样本分成两组用于训练和测试之前,我需要对我的数据集执行pca(主成分分析)。通过这样做,我降低了数据的维度,同时我正在压缩图像的大小。
但是,我不是统计学家,我在定义用于pca方法的主要组件数量时遇到一些问题,没有任何特定的公式。我的数据集是4096x400的数组,400是样本图像的数量,4096是它们的维度。有没有办法更准确和准确地说明在pca期间使用的主要组件的数量?
我正在使用matlab,所以我使用的是princomp。提前感谢您,我们将非常感谢您的帮助。
答案 0 :(得分:2)
当您申请PCA时,您会根据您的数据获得主要组件的数量。假设您从数据中获得10个主要组件。您将控制使用主成分解释差异的程度。
例如
component variance explained
1 0.40
2 0.25
3 0.15
4 0.10
5 0.05
6 0.01
7 0.01
8 0.01
9 0.01
10 0.01
有了这个,你决定截止数并训练你的分类器。在此示例中,您可以看到前4个主要组件包含%90个信息。只有4个主要成分,您的结果可能足够好。
您可以添加第5个主要组件,这5个主要组件将保留您的信息的%95,依此类推。
的示例