我应该在模式分类中使用多少主要组件?

时间:2014-11-22 10:42:10

标签: neural-network classification pca pattern-recognition

我正在研究神经网络,我正在创建一个感知器,它将作为带有面部图像数据集的分类器。在将样本分成两组用于训练和测试之前,我需要对我的数据集执行pca(主成分分析)。通过这样做,我降低了数据的维度,同时我正在压缩图像的大小。

但是,我不是统计学家,我在定义用于pca方法的主要组件数量时遇到一些问题,没有任何特定的公式。我的数据集是4096x400的数组,400是样本图像的数量,4096是它们的维度。有没有办法更准确和准确地说明在pca期间使用的主要组件的数量?

我正在使用matlab,所以我使用的是princomp。提前感谢您,我们将非常感谢您的帮助。

1 个答案:

答案 0 :(得分:2)

问题:我应该在模式分类中使用多少主成分?

答案:尽可能低。

当您申请PCA时,您会根据您的数据获得主要组件的数量。假设您从数据中获得10个主要组件。您将控制使用主成分解释差异的程度。

例如

  component  variance explained
  1          0.40
  2          0.25
  3          0.15
  4          0.10
  5          0.05
  6          0.01
  7          0.01
  8          0.01         
  9          0.01         
  10         0.01         

有了这个,你决定截止数并训练你的分类器。在此示例中,您可以看到前4个主要组件包含%90个信息。只有4个主要成分,您的结果可能足够好。

您可以添加第5个主要组件,这5个主要组件将保留您的信息的%95,依此类推。

查看PCA and image data here

的示例