使用python数据表按组列出前N行

时间:2019-01-10 12:00:23

标签: python r datatable h2o

python datatable中按组查询前N行的正确方法是什么?
例如,要通过v3组获得具有最大id2, id4值的前2行,我可以通过以下方式进行熊猫表达:

df.sort_values('v3', ascending=False).groupby(['id2','id4']).head(2)

在R中使用data.table

DT[order(-v3), head(v3, 2L), by=.(id2, id4)]

或在R中使用dplyr

DF %>% arrange(desc(v3)) %>% group_by(id2, id4) %>% filter(row_number() <= 2L)

使用熊猫的示例数据和预期输出:

import datatable as dt
dt = dt.Frame(id2=[1, 2, 1, 2, 1, 2], id4=[1, 1, 1, 1, 1, 1], v3=[1, 3, 2, 3, 3, 3])
df = dt.to_pandas()
df.sort_values('v3', ascending=False).groupby(['id2','id4']).head(2)
#   id2  id4  v3
#1    2    1   3
#3    2    1   3
#4    1    1   3
#2    1    1   2

1 个答案:

答案 0 :(得分:6)

datatable版本0.8.0开始,可以通过组合分组,排序和过滤来实现:

from datatable import *
DT = Frame(id2=[1, 2, 1, 2, 1, 2], 
           id4=[1, 1, 1, 1, 1, 1], 
           v3=[1, 3, 2, 3, 3, 3])

DT[:2, :, by(f.id2, f.id4), sort(-f.v3)]

产生

     id2  id4  v3
---  ---  ---  --
 0     1    1   3
 1     1    1   2
 2     2    1   3
 3     2    1   3

[4 rows x 3 columns]

说明:

  • by(f.id2, f.id4)按“ id2”和“ id4”列对数据进行分组;
  • sort(-f.v3)命令告诉datatable按列“ v3”对记录进行降序排序。在by()存在的情况下,此运算符将应用于每个组中;
  • 第一个:2选择每个组中的前2行;
  • 第二个:选择所有列。如果需要,它可以是列或表达式的列表,使您可以在每个组的前两行中执行一些操作。