什么时候应该使用主成分分析?

时间:2019-06-09 12:48:52

标签: machine-learning dimensionality-reduction

在机器学习中,更多的特征或尺寸会降低模型的准确性,因为有更多的数据需要归纳这被称为维数的诅咒。

降维是一种降低模型复杂性并避免过度拟合的方法。主成分分析(PCA)算法用于将数据集压缩到低维特征上,以降低模型的复杂性。

何时/如何考虑我的数据集具有许多功能,我应该寻找PCA来减少尺寸?

2 个答案:

答案 0 :(得分:0)

简单答案是,当我们需要解决维数诅咒

何时应使用PCA?

  1. 您是否要减少变量的数量,但无法确定要完全删除的变量?
  2. 您要确保变量彼此独立吗?
  3. 让自变量变得难以解释容易吗?

如果您对所有三个问题的回答均为“是”,则PCA是一种很好的使用方法。 如果您对问题3回答“否”,则不应使用PCA。 好的教程是here

答案 1 :(得分:0)

让我对此提供另一种看法。

通常,您可以使用主成分分析有两个主要原因:

  1. 用于压缩:

    • 例如,要减少存储数据的空间。
    • 要加快学习算法的速度(选择更多的主要成分 方差)。查看组件的累积方差。
  2. 出于可视化目的,使用2个或3个组件。