Pandas Dataframe.describe():哪种标准偏差?

时间:2014-09-08 06:02:42

标签: python pandas dataframe standard-deviation

使用python的Pandas库,Dataframe.describe() function打印数据集的标准偏差。但是,文档页面未指定此标准偏差是"uncorrected" standard deviation还是“更正”标准差。

有人能告诉我它返回哪一个吗?

2 个答案:

答案 0 :(得分:5)

更正后的样本标准差 您可以通过一个简单的系列说明自己,并应用公式:

In [11]: s = pd.Series([1, 2])

In [12]: s.std()
Out[12]: 0.70710678118654757

In [13]: from math import sqrt
   ....:  sqrt(0.5)
Out[13]: 0.7071067811865476

和校正样本标准差的公式:

In [14]: sqrt(1./(len(s)-1) * ((s - s.mean()) ** 2).sum())
Out[14]: 0.7071067811865476

答案 1 :(得分:3)

DataFrame.describe() calls Series.std()获取标准偏差。而the documentation tells us

  

在请求的轴上返回无偏的标准偏差。

     

默认情况下由N-1标准化。这可以使用ddof参数

进行更改

因此,describe()返回的标准偏差实际上是"校正后的样本标准差"。