Pandas:计算数据框中重复条目的平均值

时间:2016-10-07 14:23:36

标签: python pandas

我一直在使用python和pandas中的数据框,其中包含第一列中的重复条目。数据框看起来像这样:

    sample_id    qual    percent
0   sample_1      10        20
1   sample_2      20        30
2   sample_1      50        60
3   sample_2      10        90
4   sample_3      100       20

我想写一些标识第一列中重复条目的内容,并计算后续列的平均值。理想的输出类似于以下内容:

    sample_id    qual    percent
0   sample_1      30        40
1   sample_2      15        60
2   sample_3      100       20

我整个下午一直在努力解决这个问题,并希望得到任何帮助。

2 个答案:

答案 0 :(得分:16)

groupby sample_id列并使用mean

df.groupby('sample_id').mean().reset_index()

df.groupby('sample_id', as_index=False).mean()

告诉你

enter image description here

答案 1 :(得分:2)

Groupby可以使用。

data.groupby('sample_id').mean()

然后,您可以使用reset_index()完全按照自己的意愿制作外观。