我有一个分类变量和两个数字列:
np.random.seed(123)
df = pd.DataFrame({'group' : ['a']*10+['b']*10,
'var1' : np.random.randn(20),
'var2' : np.random.randint(10,size=20)})
我想通过group
找到var1
后的df
的平均值,将var2
限制为按组排列的最高四分位thresh = df.groupby('group')['var2'].quantile(0.75)
值 EM>。也就是说,每个组的阈值将是:
for group, frame in df.groupby('group'):
print(frame[frame.var2 >= frame.var2.quantile(0.75)].var1.mean())
# -1.4713362407192072
# 0.15512098976530683
这里是我想要最终结果的循环演示:
group
结果应该是包含(var
,group
)列的数据框架或由.transform
索引的系列。我认为解决方案可能涉及.apply
/ {{1}},但我被困在那里。
答案 0 :(得分:4)
你在找这个吗?
new = df.groupby('group').apply(lambda x : \
x[x.var2>=x.var2.quantile(0.75)] \
.var1.mean()).to_frame()
0 group a -1.471336 b 0.155121
答案 1 :(得分:1)
与@ Bharathshetty的答案类似,但是让函数更灵活,而不是将它合并到lambda中:
def thresh_filter(obj, sort_var, tgt_var, q=0.75, stat='mean'):
thresh = obj[sort_var].quantile(q=q)
return getattr(obj[obj[sort_var] >= thresh][tgt_var], stat)()
print(df.groupby('group').apply(lambda x: thresh_filter(x, 'var2', 'var1')))
group
a -1.47134
b 0.15512
dtype: float64