使用python的Pandas库,Dataframe.describe() function打印数据集的标准偏差。但是,文档页面未指定此标准偏差是"uncorrected" standard deviation还是“更正”标准差。
有人能告诉我它返回哪一个吗?
答案 0 :(得分:5)
更正后的样本标准差 您可以通过一个简单的系列说明自己,并应用公式:
In [11]: s = pd.Series([1, 2])
In [12]: s.std()
Out[12]: 0.70710678118654757
In [13]: from math import sqrt
....: sqrt(0.5)
Out[13]: 0.7071067811865476
和校正样本标准差的公式:
In [14]: sqrt(1./(len(s)-1) * ((s - s.mean()) ** 2).sum())
Out[14]: 0.7071067811865476
答案 1 :(得分:3)
DataFrame.describe()
calls Series.std()
获取标准偏差。而the documentation tells us,
在请求的轴上返回无偏的标准偏差。
默认情况下由N-1标准化。这可以使用ddof参数
进行更改
因此,describe()
返回的标准偏差实际上是"校正后的样本标准差"。