主成分分析

时间:2018-04-24 17:40:08

标签: machine-learning pca

我正在研究主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤mean normalizationfeature scaling。但是,我不知道归一化是什么意思以及它是如何实现的。

起初我搜索了它;但是,我找不到一个有益的解释。有没有人可以解释什么是均值归一化以及如何实现它?

1 个答案:

答案 0 :(得分:1)

假设有一个具有“ d”个要素(列)和“ n”个观测值(行)的数据集。为了简单起见,让我们考虑d = 2和n = 100。这意味着现在您的数据集具有2个要素和100个观测值。 换句话说,现在您的数据集是具有100行2列的二维数组-(100x2)。 最初,当您对其进行可视化时,您可以看到点分散在2维中。

当标准化数据集并对其进行可视化时,您实际上可以看到所有点都已移向原点。换句话说,所有观察点的平均值为0,标准差为1。此过程称为标准化。

Sample Data Visualization

您如何标准化..? 非常简单。公式很简单。

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column

注意:您必须对数据集中的所有特征应用标准化

参考:

https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html