dplyr row_number,包含多个订单列

时间:2015-11-19 22:48:33

标签: r postgresql dplyr

我希望过滤一个行号,其顺序由两列而不是一列确定:

pg <- src_postgres()
dat <- tbl(pg, 'table')

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(date1, date2) == 1)

这会产生错误:

Error in row_number(date1, date2) : unused argument (date2)

我可以通过重新处理问题来完成上述操作,如下所示,但这似乎有点过头了,特别是如果我需要按3+列排序。是否有一些我错过的row_number功能会使这个问题变得不那么冗长?

rows <- dat %>%
  group_by(dimension, date1) %>%
  filter(row_number(date2) == 1) %>%
  group_by(dimension) %>%
  filter(row_number(date1) == 1)

3 个答案:

答案 0 :(得分:2)

怎么样:

dat %>%
  arrange(dimension, date1, date2) %>%
  group_by(dimension) %>%
  filter(1:n() == 1)

答案 1 :(得分:0)

不是很优雅,但是可以工作:

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(paste0(date1, date2)) == 1L)

答案 2 :(得分:0)

尝试一下,这会有所帮助。

row_num <- function(...){
  l <- list(...)
  names(l) <- paste0("col",1:length(l))
  data.frame(l) %>% 
    mutate(org_pos = row_number()) %>%
    arrange(across(names(l))) %>% 
    mutate(pos = row_number()) %>% 
    arrange(org_pos) %>%
    pull(pos)
}

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_num(date1, date2) == 1)