如何计算z-score标准化?

时间:2016-06-12 00:58:41

标签: machine-learning classification normalization standardized

我很困惑如何进行z-score标准化。我找到了这个方程式,需要平均值和标准偏差,但我不知道如何根据我的情况解决这个问题。

我的系统中有2个分类器。为了一起使用得分,我知道我需要对它们进行标准化,因为它们的尺度会有所不同等等。我希望对此使用z-score标准化。我的问题是,考虑到两个分类器中的2个分数,我需要对分数进行标准化才能使分数正常化?我希望能够组合/比较它们。

我(可能有缺陷!)的理解是,对于分类器得分集,我们使用均值和标准差。但我们不能总是假设我们已经有一个得分集来得到平均值和标准差,我们可以吗?

1 个答案:

答案 0 :(得分:-1)

要计算给定数字集的z分数,您需要计算样本均值和样本偏差。从每个分数中减去平均值并除以标准差。 考虑下面的数字集合,其中每个观察点的测试分数范围从0到100。

{40, 50, 60, 55, 70, 80, 90}

如果您想比较另一组测试分数,其中测试分数介于0到250之间,例如:

{100, 115, 214, 50, 200, 80, 90}

你无法直接比较比较它们。即第二组中得分80显然比第一组中的80分(80/250 vs 80/100)差。一种方法是使用z分数。他们计算如下:

  1. 找出平均值

    第一组的意思是:63.57143 第二组的平均值是:121.2857

  2. 从每个分数中减去样本均值。这将为您提供一组以零为中心的数字。

    { - 23.571429,-13.571429,-3.571429,-8.571429,6.428571,16.428571,26.428571} {-21.285714,-6.285714,92.714286,-71.285714,78.714286,-41.285714,-31.285714}

  3. 计算与原始集合的标准偏差并除以"居中"得分数:

    设置1 sigma = 17.49149

    设置2 sigma = 61.98041

  4. 计算结果为:

    { - 1.3475937,-0.7758873,-0.2041809。 -0.4900341,0.3675256,0.9392320,1.5109384} {-0.3434265,-0.1014145,1.4958643,-1.1501330,1.2666865,-0.6661091,-0.5047678}

    现在你有两组数字可以直接比较。值为零意味着它是集合的平均值。比设定平均值高1个标准差的值。值为-1意味着它比平均值低一个标准差,依此类推。