请考虑以下事项:
> foo
[1] 0 0 159 24 0 829 0 157 46 12 5 5 166 166 5 12 5 5 166 166 5 35
> mean(foo)
[1] 89.45455
> summary(fivenum(foo))
Min. 1st Qu. Median Mean 3rd Qu. Max.
0 5 12 201 159 829
什么涂抹?我无法理解为什么fivenum计算与“mean”不同的数字。我想问题是我,但我无法弄清楚我做错了什么。
答案 0 :(得分:5)
为什么要在summary
上致电fivenum
?
比较
foo <- c(0, 0, 159, 24, 0, 829, 0, 157, 46, 12, 5, 5, 166, 166, 5, 12,
5, 5, 166, 166, 5, 35)
> mean(foo)
[1] 89.45455
> summary(foo)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 5.00 12.00 89.45 158.50 829.00
> fivenum(foo)
[1] 0 5 12 159 829
> mean(fivenum(foo))
[1] 201
> summary(fivenum(foo))
Min. 1st Qu. Median Mean 3rd Qu. Max.
0 5 12 201 159 829
fivenum
返回长度为5的向量“返回输入数据的Tukey的五个数字摘要(最小值,下铰链,中位数,上铰链,最大值)。”。请注意,那里没有提及mean
:)
因此,当您执行summary(fivenum(foo))
时,您正在计算向量c(0, 5, 12, 159, 829)
的摘要统计信息。对于那个向量,mean
确实是201。
答案 1 :(得分:2)
我想在这里添加几点,因为我看到一些在summary()和fivenum()给出的四分位之间感到困惑。
首先 - summary()提供以下摘要统计信息: [最小] [第一四分位数] [中位数] [平均值] [第三四分位数] [最大值]
其中,
fivenum()返回Tukey的五个数字摘要,即 [最小] [下铰链] [中位数] [上铰链] [最大]
混淆 - 四分位数和下/上铰链之间有什么区别?
让我用一个例子来解释 - 在R中尝试这个:
首先 - 使用奇数个值的向量“y”(本例中为5)
> > y=c(2, 5, 8, 15, 8)
> > summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max.
> 2.0 5.0 8.0 7.6 8.0 15.0
> > fivenum(y) [1] 2 5 8 8 15
正如您所看到的结果是相同的,除了summary()给出了除了显示的fivenum()之外的平均值。
现在我只包含一个变量(新值:12)并将此向量定义为“z”;请注意,矢量计数现在是偶数(6个值)
> z=c(2, 5, 8, 12, 15, 18)
> summary(z)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 5.75 10.00 10.00 14.25 18.00
> fivenum(z)
[1] 2 5 10 15 18
现在看到差异了 - 虽然summary()给你四分位数(基于四分位数或百分位公式的计算值),这就是fivenum()的作用 - 让它变得非常简单 - 你可以在没有数学计算的情况下完成:
fivenum()输出的描述:
首先,min,median&amp; fivenum()给出的最大值是直的 转发!
Lower Hinge =左边值的中位数(MEDIAN OF ALL VALUES)=小于10的值的中位数=中位数 (2,5,8)= 5
上铰链=右侧值的中位数(MEDIAN OF ALL VALUES)=值的中位数大于10 =中位数 (12,15,18)= 15