我试图理解数值变量的偏度和峰度,以了解数据的形状。
我首先使用skewness命令计算如下:
skewness(data$responsetime)
[1] 26.56731
和峰度:
kurtosis(data$responsetime)
[1] 3723.961
偏斜是正的,因此尾部应该向右,并且峰度是> = 3.
现在我想用一个情节确认偏斜和峰度。我试着这样:
plot(density(data$responsetime)
)
我得到的情节如下,很难得出一些结论。我是R的新手,我试图让这个图表更清晰,比如调整x大小或其他东西,但我没有找到这样做的命令。 oyu知道怎么做吗?
使用直方图,如下所示:
hist(数据$ responsetime,breaks = 100)
我也得到了一个难以理解的图表:
使用plot(data $ responsetime,xlim = c(0,20000)),我得到了这个:
使用:plot(密度(数据$ responsetime),xlim = c(0,20000))
我得到下面的图表。但我不明白,在x轴上我有响应时间。 max(data $ responsetime)响应时间的最大值是320000,那么尾部如何停止18000?
答案 0 :(得分:2)
使用qqnorm和qqline - 非常清楚地显示偏斜和峰度。
代码:
qqnorm(数据$ RESPONSETIME)
qqline(数据$ RESPONSETIME)
右倾斜通常呈现凸起的外观,左倾斜通常是凹的。在过度峰度<0的情况下,尾部通常比qqline预测的更靠近水平中线;当过度峰度> 0时,通常尾部中的一个或两个比qqline预测的更极端(更远离水平中线)。
你应该在数据的qq图中看到凹面外观,右边的尾部远远高于qqline。这表明您的分布产生的异常值远远超过右尾正态分布所预测的异常值。
Kurtosis测量异常值,而不是分布的峰值。当涉及将峰度统计量与直方图相关联时,这可能是某些人混淆的根源。
理解为什么峰度测量异常值(非峰值)的逻辑很简单:大| Z | - 值表示异常值。峰度是Z ^ 4值的平均值。所以| Z | - 值接近于零(峰值所在的位置)对峰度统计量几乎没有贡献,因此峰度统计量对于峰值没有信息。当峰值尖峰时你可以有一个高峰度,当峰值平坦时你可以有一个高峰度。这一切都取决于异常值的处理。
答案 1 :(得分:0)
与hist()函数有关:
hist(data$responsetime, breaks='FD')
我发现“breaks ='FD'”通常会在直方图中返回足够的断点来解决这个问题。此外,从图表看起来你的尾巴很长。
侧栏: 如果您的数据偏斜,您可以考虑在使用它们之前转换数据。