我有一个带有ID的数据框和与每个ID相关的大量测试结果。我想要做的是创建第二个数据框,它总结了特定测试的平均分数和标准偏差,然后我可以在图表上绘制。
以下是我到目前为止的代码。它返回错误“ValueError:Length mismatch:Expected axis has 1 elements,new values have 2 elements”。
有人可以帮忙吗?
df2 = df1.groupby(['id'], as_index=True).agg({'variable_1':['mean'], 'variable_1':['std']})
df2.columns=['var_mean','var_std']
df2.plot(x='var_mean', y='var_std', kind='scatter', figsize=(15,10), title='Standard Deviation of Std vs Mean')
example data:
ID Variable_1
1234 32
1234 23
2345 54
2345 65
2345 76
3456 78
what I'd like:
ID Mean SD
1234 23.5 2.2
2345 45 9
...
...
答案 0 :(得分:3)
您可以将函数词汇传递给groupby
以使用agg
执行统计:
In [154]:
df.groupby('ID')['Variable_1'].agg({'Mean':np.mean, 'SD':np.std})
Out[154]:
Mean SD
ID
1234 27.5 6.363961
2345 65.0 11.000000
3456 78.0 NaN