我有一个看起来像这样的大数据框。
>>> df
Chrom Pos Score
4 chr3 14166653 5.164
3 chr3 3120477 3.892
1 chr1 2448046 3.783
2 chr2 41642884 3.285
0 chr1 53486837 1.671
它在Score
列上排序。我想折叠数据框,以使Chrom
列是非冗余的。更具体地说,对于Chrom
列中每个不同的值,结果应仅包含得分最高的行。结果应如下所示。
>>> df
Chrom Pos Score
4 chr3 14166653 5.164
1 chr1 2448046 3.783
2 chr2 41642884 3.285
我将如何以简洁高效的方式做到这一点?