如何使用NumPy计算Minitab等效四分位数

时间:2015-06-02 03:25:51

标签: python numpy statistics minitab

我有一项家庭作业,我正在使用Minitab查找四分位数和数据集的四分位数范围。当我尝试使用NumPy复制结果时,结果不同。在做了一些谷歌搜索后,我发现计算四分位数有许多不同的算法:as listed here。我已经尝试了NumPy文档中列出的百分位函数的所有不同类型的插值,但它们都没有匹配minitab的算法。是否有任何懒惰的解决方案来实现使用NumPy的minitab算法,或者我只需要推出自己的代码并实现算法?

示例代码:

import pandas as pd
import numpy as np

terrestrial = Series([76.5,6.03,3.51,9.96,4.24,7.74,9.54,41.7,1.84,2.5,1.64])
aquatic = Series([.27,.61,.54,.14,.63,.23,.56,.48,.16,.18])

df = DataFrame({'terrestrial' : terrestrial, 'aquatic' : aquatic})

这是我与NumPy一起使用的方法

q75,q25 = np.percentile(df.aquatic, [75,25], interpolation='linear')
iqr = q75 - q25

Minitab的结果不同:

Descriptive Statistics: aquatic, terrestrial 

Variable         Q1      Q3     IQR
aquatic      0.1750  0.5725  0.3975
terrestrial    2.50    9.96    7.46

2 个答案:

答案 0 :(得分:1)

这是尝试实施Minitab的算法。我已经写过这些函数,假设您已经删除了a系列中缺少的观察结果:

# Drop missing obs
x = df.aquatic[~ pd.isnull(df.aquatic)]

def get_quartile1(a):
    a = a.sort(inplace=False)
    pos1 = (len(a) + 1) / 4.0
    round_pos1 = int(np.floor((len(a) + 1) / 4.0))
    first_part = a.iloc[round_pos1 - 1]
    extra_prop = pos1 - round_pos1
    interp_part = extra_prop * (a.iloc[round_pos1] - first_part)
    return first_part + interp_part

get_quartile1(x)
Out[84]: 0.17499999999999999

def get_quartile3(a):
    a = a.sort(inplace=False)
    pos3 = (3 * len(a) + 3) / 4.0
    round_pos3 = round((3 * len(a) + 3) / 4) 
    first_part = a.iloc[round_pos3 - 1]
    extra_prop = pos3 - round_pos3
    interp_part = extra_prop * (a.iloc[round_pos3] - first_part)
    return first_part + interp_part

get_quartile3(x)
Out[86]: 0.57250000000000001

答案 1 :(得分:0)

我认为你必须自己动手。 np.percentile提供的插值方法仅影响在分位数位置周围的最近数据点之间进行插值的方式。但似乎minitab实际上是使用不同的方法来确定分位数位置。