偏度和峰度的置信区间和标准误差

时间:2016-07-12 11:53:08

标签: r standard-error kurtosis

请告诉我如何计算偏度和峰度以及它们各自的标准误差和置信区间(即Skewness的SE和Kurtosis的S.E)我找到了两个包

1)包:'度量'只能计算偏度和峰度

2)包:'rela'可以计算偏度和峰度,但默认情况下使用bootstrap,并且在计算过程中没有命令将其关闭。

4 个答案:

答案 0 :(得分:0)

尝试包心理:

> a <- data.frame(cola=rep(c('A','B','C'),100),colb=sample(1:1000,300),colc=rnorm(300))
> describe(a)
      vars   n   mean     sd median trimmed    mad   min    max  range  skew kurtosis    se
cola*    1 300   2.00   0.82   2.00    2.00   1.48  1.00   3.00   2.00  0.00    -1.51  0.05
colb     2 300 511.76 285.59 506.50  514.21 362.50  1.00 999.00 998.00 -0.04    -1.17 16.49
colc     3 300   0.12   1.04   0.05    0.10   1.07 -2.54   2.91   5.45  0.12    -0.24  0.06
> describe(a)$skew
[1]  0.00000000 -0.04418551  0.11857609

答案 1 :(得分:0)

我只是复制并粘贴Howard Seltman在here中发布的代码:

# Skewness and kurtosis and their standard errors as implement by SPSS
#
# Reference: pp 451-452 of
# http://support.spss.com/ProductsExt/SPSS/Documentation/Manuals/16.0/SPSS 16.0 Algorithms.pdf
# 
# See also: Suggestion for Using Powerful and Informative Tests of Normality,
# Ralph B. D'Agostino, Albert Belanger, Ralph B. D'Agostino, Jr.,
# The American Statistician, Vol. 44, No. 4 (Nov., 1990), pp. 316-321

spssSkewKurtosis=function(x) {
  w=length(x)
  m1=mean(x)
  m2=sum((x-m1)^2)
  m3=sum((x-m1)^3)
  m4=sum((x-m1)^4)
  s1=sd(x)
  skew=w*m3/(w-1)/(w-2)/s1^3
  sdskew=sqrt( 6*w*(w-1) / ((w-2)*(w+1)*(w+3)) )
  kurtosis=(w*(w+1)*m4 - 3*m2^2*(w-1)) / ((w-1)*(w-2)*(w-3)*s1^4)
  sdkurtosis=sqrt( 4*(w^2-1) * sdskew^2 / ((w-3)*(w+5)) )
  mat=matrix(c(skew,kurtosis, sdskew,sdkurtosis), 2,
        dimnames=list(c("skew","kurtosis"), c("estimate","se")))
  return(mat)
}

要获取变量的偏度和峰度及其标准错误,只需运行以下函数:

x <- rnorm(100)
spssSkewKurtosis(x)

##             estimate    se
##    skew       -0.684 0.241
##    kurtosis    0.273 0.478

答案 2 :(得分:0)

标准误差对正态分布有效,但对其他分布无效。要了解原因,您可以运行以下代码(使用上面显示的spssSkewKurtosis函数)来估算通过峰度估计值加上或减去1.96标准误差获得的区间的真实置信度:

set.seed(12345)
Nsim = 10000
Correct = numeric(Nsim)
b1.ols = numeric(Nsim)
b1.alt = numeric(Nsim)
for (i in 1:Nsim) {
 Data = rnorm(1000)  
 Kurt = spssSkewKurtosis(Data)[2,1]
 seKurt =  spssSkewKurtosis(Data)[2,2]
  LowerLimit = Kurt -1.96*seKurt
  UpperLimit = Kurt +1.96*seKurt
  Correct[i] = LowerLimit <= 0 & 0 <= UpperLimit  
 }

TrueConfLevel = mean(Correct)
TrueConfLevel

这将为您提供0.9496,可接受地接近预期的95%,因此,当数据来自正态分布时,标准误差将按预期工作。但是,如果将Data = rnorm(1000)更改为Data = runif(1000),则假定数据来自均匀分布,其理论(过量)峰度为-1.2。从Correct[i] = LowerLimit <= 0 & 0 <= UpperLimitCorrect[i] = LowerLimit <= -1.2 & -1.2 <= UpperLimit进行相应的更改将得出结果1.0,这意味着95%的间隔始终是正确的,而不是对95%的样本是正确的。因此,对于(轻尾)均匀分布,标准误差似乎被高估了(太大)。

如果将Data = rnorm(1000)更改为Data = rexp(1000),则假设数据来自指数分布,其理论(过量)峰度为6.0。从Correct[i] = LowerLimit <= 0 & 0 <= UpperLimitCorrect[i] = LowerLimit <= 6.0 & 6.0 <= UpperLimit进行相应的更改将得到结果0.1007,这意味着95%的间隔仅对10.7%的样本正确,而不是对95%的样本正确。因此,对于(重尾)指数分布,标准误差似乎被低估了(太小)。

如上面的模拟所示,对于非正态分布,这些标准误差完全不正确。因此,这些标准误差的唯一用途是将估计峰度与预期理论正常值(0.0)进行比较;例如,使用假设检验。它们不能用于构造真实峰度的置信区间。

答案 3 :(得分:0)

@HBat is right:如果您的样本数据是高斯,则可以使用wikipedia中的公式计算标准误差

n = len(sample)
se_skew = ((6*n*(n-1))/((n-2)*(n+1)*(n+3)))**0.5

但是,@BigBendRegion is also right:如果您的数据不是高斯的,则此方法无效。然后,您可能需要进行引导。

R具有DescTools程序包,该程序包可以引导(例如)偏斜的置信区间。可以使用rpy2将它包含在python中,如下所示:

""" Import rpy2 and the relevant package"""
import rpy2.robjects as robjects
from rpy2.robjects.packages import importr
DescTools = importr('DescTools')
""" You will probably need this if you want to work with numpy arrays"""
import rpy2.robjects.numpy2ri
rpy2.robjects.numpy2ri.activate()


def compute_skew(data, confidence_level=0.99):
    """ Compute the skew and confidence interval using rpy2, DescTools
        @param data
        @return dict with keys: skew, skew_ci_lower, skew_ci_upper"""
    d = {}
    d["skew"], d["skew_ci_lower"], d["skew_ci_upper"] = DescTools.Skew(data, conf_level=confidence_level)
    return d

""" Call the function on your data (assuming that is saved in a variable named sample)"""
print(compute_skew(sample))