这是一个数据框,显示一些信息,如count,mean,std和某些百分位数。你能否解释一下如何使用这些数据来理解df / a系列。
losses wins year
count 8.000000 8.000000 8.000000
mean 6.625000 9.375000 2011.125000
std 3.377975 3.377975 0.834523
min 1.000000 4.000000 2010.000000
25% 5.000000 7.500000 2010.750000
50% 6.000000 10.000000 2011.000000
75% 8.500000 11.000000 2012.000000
有人可以解释每一个计数,意思,标准,分钟,和。那些百分位数用于理解数据?
答案 0 :(得分:6)
这些是一些统计数据,可以对数据分布的性质提供一些看法。
mean
是平均值,是分布的“预期”值。平均而言,您希望得到这个数字。
std
告诉您数据相对于mean
的摆动有多大。具体而言,它与mean
。{/ p>
mean
平方偏差
50%
也是中位数,它与mean
的区别在于提供有关分布偏差的信息。这也是对数据中异常值具有鲁棒性的另一种平均定义。
25%
& 75%
给出了关于峰度的观点。此外,所有百分位数通常对异常值更为稳健。
min
,max
,max - min
,75% - 25%
都是关于数据相对于mean
有多大波动的观点的替代方案
count
这个数字越大,所有统计数据的可信度就越高。