Question

我希望过滤一个行号，其顺序由两列而不是一列确定：

pg <- src_postgres()
dat <- tbl(pg, 'table')

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(date1, date2) == 1)

这会产生错误：

Error in row_number(date1, date2) : unused argument (date2)

我可以通过重新处理问题来完成上述操作，如下所示，但这似乎有点过头了，特别是如果我需要按3+列排序。是否有一些我错过的row_number功能会使这个问题变得不那么冗长？

rows <- dat %>%
  group_by(dimension, date1) %>%
  filter(row_number(date2) == 1) %>%
  group_by(dimension) %>%
  filter(row_number(date1) == 1)

Answer 1

怎么样：

dat %>%
  arrange(dimension, date1, date2) %>%
  group_by(dimension) %>%
  filter(1:n() == 1)

Answer 2

不是很优雅，但是可以工作：

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_number(paste0(date1, date2)) == 1L)

Answer 3

尝试一下，这会有所帮助。

row_num <- function(...){
  l <- list(...)
  names(l) <- paste0("col",1:length(l))
  data.frame(l) %>% 
    mutate(org_pos = row_number()) %>%
    arrange(across(names(l))) %>% 
    mutate(pos = row_number()) %>% 
    arrange(org_pos) %>%
    pull(pos)
}

rows <- dat %>%
  group_by(dimension) %>%
  filter(row_num(date1, date2) == 1)

dplyr row_number，包含多个订单列

3 个答案: