Question

我正在研究主成分分析，我刚刚了解到，在将PCA应用于数据样本之前，我们必须应用两个预处理步骤mean normalization和feature scaling。但是，我不知道归一化是什么意思以及它是如何实现的。

起初我搜索了它;但是，我找不到一个有益的解释。有没有人可以解释什么是均值归一化以及如何实现它？

Answer 1

假设有一个具有“ d”个要素（列）和“ n”个观测值（行）的数据集。为了简单起见，让我们考虑d = 2和n = 100。这意味着现在您的数据集具有2个要素和100个观测值。换句话说，现在您的数据集是具有100行2列的二维数组-（100x2）。最初，当您对其进行可视化时，您可以看到点分散在2维中。

当标准化数据集并对其进行可视化时，您实际上可以看到所有点都已移向原点。换句话说，所有观察点的平均值为0，标准差为1。此过程称为标准化。

您如何标准化..？非常简单。公式很简单。

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column

注意：您必须对数据集中的所有特征应用标准化

参考：