假设我的数据框df1
包含A, B, C
列,其中C
是整数。我希望按df1.A
进行分组,并根据df1.C
抓取每个组的前5行。但是,我希望根据df1.C
BUT获取前5个值,并使用唯一的df1.B
值。因此,抓取的5行应该具有不同的df1.B
值。
到目前为止我所拥有的东西抓住了我想要的东西,除了df1.B
值不是唯一的。如何重写此项,以便5行包含每个组的唯一列B
?
df2 = df1.sort('C').groupby('A').tail(5)
示例数据:
A B C
1 'group1' 'apple' 3
2 'group1' 'apple' 2
3 'group2' 'apple' 1
4 'group1' 'orange' 2
5 'group3' 'pineapple' 3
...
df1.A == 'group1'
的输出5行不应包括1和2.它应该只包含两个中的一个。