考虑偏度和峰度的标准归一化

时间:2017-12-13 10:02:05

标签: statistics normalization distribution

我有一个相当基本的统计问题。我知道堆栈溢出可能不适合它,但我是一个软件开发人员,我不知道任何好的统计论坛和堆栈溢出在过去对我有好处。

我的问题如下。我需要标准化一些数据。我有两个不同的集合,在我的规范化后,他们应该分享大致相同的分布。到目前为止,我使用标准规范化(标准分数:(x-mu)/西格玛)。在转换了我的两个分布的所有值之后,我希望所有变换值的结果分布几乎完全相同。

到目前为止这种方法运作良好,但现在我遇到了我的两个发行版之一偏斜的问题。标准化归一化不能解释,因此在归一化之后,均值和标准差可能相同,但是一个是偏斜的而另一个分布是对称的。

我现在的问题:是否有一种已知的方法可以进行标准归一化,同时考虑转换的倾斜和峰度? 值得一提的是,我的价值观也可能是负面的。

我可以看到这可能不是正确的论坛所以如果有人能指出我可靠的统计论坛,我也会非常高兴。

奥利

2 个答案:

答案 0 :(得分:2)

如果您的目标是查看两个数据集是否共享相同的分布,则无需进行规范化。您应该考虑使用Q-Q plot。如果数据共享一个公共分布,即使使用不同的参数化,结果也会非常接近直线。

如果两组中的数据量相同,则生成Q-Q图很容易。对两组进行排序,然后将它们配对并绘制它们。如果这些集合的大小不同,那么您必须为较小的集合插入分位数,这更具挑战性。

在你目前的情况下,如果其中一个集合倾斜(基于不止一个或两个异常值)而另一个集合是对称的,则它们可能来自不同的分布。

如果您的数据是正常分发的,那么"标准化"当真实方差用于变换时产生标准法线,并且当使用样本方差时产生t分布。然而,由于标准化是线性变换,因此它是形状保持的。如果您的数据不正常,标准转换不会神奇地使它们呈钟形和对称。

我所知道的唯一可靠产生相同参考分布的转换就是转换为分位数。它是well-known result如果随机变量X具有可逆CDF F X ,那么F X (X)~U(0,1),即,通过它们自己的CDF映射X,产生归一化到范围(0,1)的分位数。要将其应用为转换,您必须知道正确的CDF。 Q-Q绘图非常聪明 - 如果两个数据集具有相同的基础分布,则无论您是否知道实际分布,它们的分位数都会相互排列。

底线:如果您想知道两个数据集是否具有相同的分布,请使用Q-Q绘图。如果您想要为任何(连续)输入分布产生已知参考分布的转换,您需要知道所涉及的实际CDF。

答案 1 :(得分:0)

我不确定这种转换是否存在于通用和分发独立的方式中(有人可以称之为"标准")。对于标准规范化,你所做的是线性变换((x-mu)/ sigma),这样你的分布现在类似于N(0,1) - 高斯,平均值为0,西格玛为1。

但是,偏斜计算为Skew = 3 *(平均值 - 中值)/标准偏差。因此,0 mean和stddev为1,剩下的是-3*Median。因此,如果您现在具有非零偏差,则表示您想要使其为0的非零中位数。

为此,剩下的唯一选择是非线性转换,我认为这将取决于分布。基本上,pjs做了类似的声明 - 假设使用CDF和逆CDF进行转换,这是超出线性转换的方法,并且在不处理分布属性的情况下不能标准化。

也许使用简单模型进行偏斜分布 - Skewed Normal - 可能会为这种转换产生一些简单的模型