我正在研究主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤mean normalization
和feature scaling
。但是,我不知道归一化是什么意思以及它是如何实现的。
起初我搜索了它;但是,我找不到一个有益的解释。有没有人可以解释什么是均值归一化以及如何实现它?
答案 0 :(得分:1)
假设有一个具有“ d”个要素(列)和“ n”个观测值(行)的数据集。为了简单起见,让我们考虑d = 2和n = 100。这意味着现在您的数据集具有2个要素和100个观测值。 换句话说,现在您的数据集是具有100行2列的二维数组-(100x2)。 最初,当您对其进行可视化时,您可以看到点分散在2维中。
当标准化数据集并对其进行可视化时,您实际上可以看到所有点都已移向原点。换句话说,所有观察点的平均值为0,标准差为1。此过程称为标准化。
您如何标准化..? 非常简单。公式很简单。
z = (X - u) / s
Where,
X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column
注意:您必须对数据集中的所有特征应用标准化
参考:
https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html