数据中的零均值意味着什么?

时间:2014-07-14 04:15:57

标签: normalization pca feature-selection

我试图找到规范化我的数据集的方法(用文档作为行和列作为特征表示为矩阵),我遇到了一种称为特征缩放的技术。我发现了一篇关于它的维基百科文章here

列出的方法之一是标准化,它表示"特征标准化使得数据中每个特征的值具有零均值和单位方差。"这是什么意思(没有双关语意)?

在这种方法中,"我们从每个特征中减去平均值。然后我们将每个特征的值(平均值已被减去)除以其标准偏差。"当他们说“减去平均数”时,它是整个矩阵的平均值还是与该特征相关的列的平均值?

此外,如果应用此特征缩放方法,在对数据执行主成分分析(PCA)时,是否不必从列中减去平均值?

2 个答案:

答案 0 :(得分:0)

通过查看文章,我的理解是你会减去该功能的平均值。这将为您提供一组描述相同数据布局但已标准化的功能数据。

想象一下,您为新功能添加了数据。您可能希望原始功能的数据保持不变,而不受新功能的影响。

我猜你仍然会得到一个标准化的#34;如果你减去整个数据集的平均值,那么值的范围会有所不同 - 你可能更感兴趣的是单个特征的数据如何围绕它的平均值。

您还可以在math.stackexchange.com上查看(或提问)。

答案 1 :(得分:0)

基本思想是对数据集进行简单(可逆)转换,使其更易于处理。您从每列中减去一个常量,然后将每列除以(不同的)常量。这些常量是特定于列的。

  

当他们说“减去平均值”时,它是整个矩阵的平均值   或与该特征有关的列的平均值?

与该功能相关的列的平均值。

  

...在对数据执行主成分分析(PCA)时,是否不必从列中减去平均值?

正确。 PCA要求平均值为零的数据。通常,这是通过减去平均值作为第一步来强制执行的。如果已经减去平均值,则不需要该步骤。但是,执行"减去平均数"操作两次。因为第二次平均值将为零,所以没有任何改变。在形式上,我们可能会说标准化是幂等的。