为什么Principal Component处于最大方差的方向?

时间:2017-06-19 20:51:42

标签: machine-learning statistics

主成分分析上下文中的变异数据是指什么?我的意思是假设我们有5个功能,或者我们可以说5个维度然后数据的变化将是什么?意味着,它是指每个特征中数据的变化吗?为什么PCA处于数据最大变化的方向?

1 个答案:

答案 0 :(得分:1)

来自Cross Validated的

This回答为您的问题提供了出色的答案。

最重要的是,回答为什么PCA在数据的最大变化方向?,我建议阅读一些基本的信息理论,this blog article提供了一个很好的介绍学科。为了给出一个实际的例子,想象一下,在你的5个特征中,你有一个矢量就是全部。它很直观,它对你没有帮助;所有样本共享相同的功能。这个特殊功能的方差将为零 - 它没有任何信息。如果你愿意的话,零熵是一个完美的顺序,意味着在给定的方向上没有任何变化:从数据中删除一个明确的候选者。增加差异=增加信息内容。