获得相应的中位数指数

时间:2017-09-25 18:05:31

标签: python pandas dataframe indexing median

我有一个包含一列的pandas数据框,我想知道中位数的索引。也就是说,我用这种方式确定中位数:

df.median()

这给了我中值,但我想知道该行的索引。有可能确定这个吗?对于长度不均匀的列表,我可以搜索具有该值的索引,但是对于偶数列表长度,这不起作用。有人可以帮忙吗?

在另一篇文章中提到了这个问题,答案主要是搜索与中位数具有相同值的行。但就像我说的那样,这对于长度均匀的列表是行不通的。

下面是Min示例(我已经包含了Wen的建议):

df = pd.DataFrame(np.random.randn(6, 1), columns=list('A'))
df.median()
df.loc[df[0]==df[0].median()]

Out[120]: 
Empty DataFrame
Columns: [0]
Index: []

2 个答案:

答案 0 :(得分:2)

你可以将Wen的答案用于奇数长度的数据帧。

对于长度均匀的数据帧,问题确实没有意义。正如您所指出的那样,数据框中不存在中位数。但是,您可以按感兴趣的列对数据帧进行排序,然后找到两个“中值”值的索引。

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(6, 1), columns=list('A'))
df.median()

df.loc[df['A']==df['A'].median()]

df.sort_values(by='A', inplace=True)

df[df['A'] > df['A'].median()].iloc[0]
df[df['A'] < df['A'].median()].iloc[-1]

答案 1 :(得分:1)

另一种方法是使用quantile函数(方便地默认为0.5,即中位数)并设置interpolation参数,以使它不会尝试拆分DataFrame的中点。长度均匀。

import pandas as pd
import numpy as np

df=pd.DataFrame(np.random.randn(6,1), columns=['A'])


# row nearest to midpoint 
df[df['A']==df['A'].quantile(interpolation='nearest')]

# just below the midpoint
df[df['A']==df['A'].quantile(interpolation='lower')]

# just above the midpoint
df[df['A']==df['A'].quantile(interpolation='higher')]