Question

我正在寻找一个 tidyverse - 解决方案，它可以计算数据数据{{1}中组内TF的唯一值的出现次数id }}。当tbl更改时，我想从该点开始向前和向后计数。此计数应存储在新变量TF中，以便PM##同时保存PM##中每个唯一移位的加号和减号。

此问题类似于a question I previously asked，但我在专门使用tidyverse工具寻找解决方案。 Uwe使用TF here为初始问题提供了一个优雅的答案。

如果此问题违反了任何SO政策，请告知我们，我将很乐意重新打开我的初步问题，或者将此问题附加到这个问题上。

用最小工作示例来说明我的问题。我有这样的数据，

data.table

这就是我想要获得的，

# install.packages(c("tidyverse"), dependencies = TRUE)
library(tibble)

tbl <- tibble(id = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,
                     1, 1, 1, 1, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7), 
              TF = c(NA, 0, NA, 0, 0, 1, 1, 1, NA, 0, 0, NA, 0, 0,
                     0, 1, 1, 1, NA, NA, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1))
tbl
#> # A tibble: 30 x 2
#>       id    TF
#>    <dbl> <dbl>
#>  1     0    NA
#>  2     0     0
#>  3     0    NA
#>  4     0     0
#>  5     0     0
#>  6     0     1
#>  7     0     1
#>  8     0     1
#>  9     0    NA
#> 10     0     0
#> # ... with 20 more rows

Answer 1

以下是使用dplyr，tidyr和zoo（用于其na.locf函数）包的另一种 tidyverse 方法：

首先，我没有在TF列中删除 NAs ，而是像所有其他建议的方法（包括data.table方法）一样重新加入，我写了一个帮助方法在这里，通过忽略 NAs ;

的块来向前推进

forward_count <- function(v) {
    valid <- !is.na(v)
    valid_v <- v[valid]
    chunk_size = head(rle(valid_v)$lengths, -1)
    idx <- cumsum(chunk_size) + 1
    ones <- rep(1, length(valid_v))
    ones[idx] <- 1 - chunk_size
    v[valid] <- cumsum(ones)
    v
}

并且它在更改之后计数所需的工作：

v <- sample(c(NA, 0, 1), 15, replace = T) v # [1] NA NA NA 0 1 NA 1 NA 1 1 0 1 0 0 0 forward_count(v) # [1] NA NA NA 1 1 NA 2 NA 3 4 1 1 1 2 3

更改前的计数可以通过使用完全相同的函数反转向量两次来实现：

-rev(forward_count(rev(v))) # [1] NA NA NA -1 -4 NA -3 NA -2 -1 -1 -1 -3 -2 -1

现在定义标题，将前向列计为fd，使用bd包将后向列计为dplyr：

library(dplyr); library(tidyr); library(zoo); tidy_method <- function(df) { df %>% group_by(id) %>% mutate( rle_id = cumsum(diff(na.locf(c(0, TF))) != 0), # chunk id for constant TF PM_fd = if_else( # PM count after change headers rle_id == head(rle_id, 1), "head", sprintf('PM%02d', rle_id) ), PM_bd = if_else( # shift the header up as before change headers rle_id == tail(rle_id, 1), "tail", sprintf('PM%02d', rle_id+1) ), fd = forward_count(TF), # after change count bd = -rev(forward_count(rev(TF))), # before change count rn = seq_along(id)) %>% # row number gather(key, value, PM_fd, PM_bd) %>% # align headers with the count mutate(count_ = if_else(key == "PM_fd", fd, bd)) %>% select(-key) %>% spread(value, count_) %>% # reshaper PM column as headers select(id, TF, rn, matches('PM')) %>% # drop no longer needed columns arrange(id, rn) %>% select(-rn) }

计时与data.table方法进行比较：

将data.table方法定义为：

dt_method <- function(df) { tmp_dt <- setDT(df)[, rn := .I][!is.na(TF)][, rl := rleid(TF), by = id][ , c("up", "dn") := .(seq_len(.N), -rev(seq_len(.N))), by = .(id, rl)][] res_dt <- tmp_dt[tmp_dt[, seq_len(max(rl) - 1L), by = .(id)], on = .(id), allow.cartesian = TRUE][ rl == V1, PM := dn][rl == V1 + 1L, PM := up][ , dcast(.SD, id + TF + rn ~ sprintf("PM%02d", V1), value.var = "PM")][ df, on = .(rn, id, TF)][, -"rn"] res_dt }

数据：通过重复样本数据帧200次来获得中等大小的数据：

df_test <- bind_rows(rep(list(df), 200)) microbenchmark::microbenchmark(dt_method(df_test), tidy_method(df_test), times = 10) #Unit: milliseconds # expr min lq mean median uq max neval # dt_method(df_test) 2321.5852 2439.8393 2490.8583 2456.1118 2557.4423 2834.2399 10 # tidy_method(df_test) 402.3624 412.2838 437.0801 414.5655 418.6564 540.9667 10

按id订购data.table方法结果，并将所有列数据类型转换为数字; data.table方法与tidyverse的结果完全相同：

identical( as.data.frame(dt_method(df_test)[order(id), lapply(.SD, as.numeric)]), as.data.frame(tidy_method(df_test)) ) # [1] TRUE

Answer 2

使用位优化的data.table函数进行更新：

可能应该回到旧问题，但这可能会引发一些进一步的优化。

为了让事情顺利进行，我已经使用data.table函数玩了一下，并且得到了tidyverse版本执行时间的两倍 - 瓶颈是dcast()函数，请参阅以下profvis的屏幕截图：

dt_method <- function(dt_test) {
  tmp_dt <- dt_test[, rn := .I][!is.na(TF)][, rl := rleid(TF), by = id][
    , c("up", "dn") := .(seq_len(.N), -rev(seq_len(.N))), by = .(id, rl)][, ':='(
      rl_PM = sprintf("PM%02d", rl),
      United = paste(id, TF, rn, sep = '_')
    )]

  res_dt <- tmp_dt[, .(sprintf("PM%02d", seq_len(max(rl) - 1L)), seq_len(max(rl) - 1L)), by = .(id)] %>% 
    tmp_dt[., on = .(id), allow.cartesian = TRUE] %>%  
    .[rl == V2, PM := dn] %>%
    .[rl == V2 + 1L, PM := up] %>%
    dcast(., United ~ V1, value.var = "PM") %>%
    .[, c('id', 'TF', 'rn') := lapply(tstrsplit(United, '_'), as.numeric)] %>%
    .[dt_test, on = .(rn, id, TF)] %>% .[, -c('rn', 'United')]
  res_dt
}

管道需要处理一些奇怪的错误，但我仍然认为它们甚至可以用于data.table。

Microbenchmark结果：

Unit: milliseconds
                 expr      min       lq      mean    median        uq       max neval
   dt_method(dt_test) 868.1491 932.8076 1048.5077 1029.9609 1078.0735 1518.0327    10
 tidy_method(df_test) 478.6824 515.5639  557.9644  565.9422  585.3143  622.1093    10

identical()具有固定的列顺序：

identical(
  dt_method(dt_test)[order(id), lapply(.SD, as.numeric)] %>% setcolorder(c('id', 'TF', setdiff(names(.), c('id', 'TF')))) %>% as.data.frame(),
  as.data.frame(tidy_method(df_test))
)

profvis时间：

旧部分：

以Uwe的答案为基础：

（免责声明：我没有过多地使用dplyr，将此视为自己的练习，因此肯定不是dplyr - 最佳，请参阅例如dcast。）< / p>

library(data.table)
library(magrittr)
library(dplyr)
library(tibble)

df <- tibble(id = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 
                    1, 1, 1, 1,7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7),
             TF = c(NA, 0, NA, 0, 0, 1, 1, 1, NA, 0, 0, NA, 0, 0, 0,
                    1, 1, 1, NA, NA, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1))

dfa <- tibble(id = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,
                     1, 1, 1, 1, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7),
              TF = c(NA, 0, NA, 0, 0, 1, 1, 1, NA, 0, 0, NA, 0, 0,
                     0, 1, 1, 1, NA, NA, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1),
              PM01 = c(NA, -3, NA, -2, -1, 1, 2, 3, NA, NA, NA, NA, -3, -2, -1,
                       1, 2, 3, NA, NA, -2, -1, 1, NA, NA, NA, NA, NA, NA, NA),
              PM02 = c(NA, NA, NA, NA, NA, -3, -2, -1, NA, 1, 2, NA, NA, NA, NA,
                       NA, NA, NA, NA, NA, NA, NA, -1, 1, 2, NA, NA, NA, NA, NA),
              PM03 = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,
                       NA, NA, NA, NA, NA, NA, NA, NA, -2, -1, 1, NA, NA, NA, NA),
              PM04 = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,
                       NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, -1, 1, NA, NA, NA),
              PM05 = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,
                       NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, -1, 1, 2, 3))

tmp_dt <- setDT(df)[, rn := .I][!is.na(TF)][, rl := rleid(TF), by = id][
  , c("up", "dn") := .(seq_len(.N), -rev(seq_len(.N))), by = .(id, rl)][]

res_dt <- tmp_dt[tmp_dt[, seq_len(max(rl) - 1L), by = .(id)], on = .(id), allow.cartesian = TRUE][
  rl == V1, PM := dn][rl == V1 + 1L, PM := up][
    , dcast(.SD, id + TF + rn ~ sprintf("PM%02d", V1), value.var = "PM")][
      df, on = .(rn, id, TF)][, -"rn"]
res_dt

all.equal(res_dt, as.data.table(dfa))

尽可能多的tidyverse-sque：

tmp_dplyr <- df %>%
  # create row id column (required for final join to get NA rows back in)
  mutate(rn = row_number()) %>%
  # ignore NA rows 
  filter(complete.cases(.)) %>%
  # number streaks of unique values within each group
  group_by(id) %>%
  mutate(rl = rleid(TF)) %>%
  # create ascending and descending counts for each streak
  # this is done once to avoid repeatedly creation of counts for each PM 
  # (slight performance gain)
  group_by(id, rl) %>%
  mutate(
    up = seq_len(n()),
    dn = -rev(seq_len(n()))
  )

res_dplyr <- tmp_dplyr %>%
  ## Replicating tmp[tmp[, seq_len(max(rl) - 1L), by = .(id)], on = .(id), allow.cartesian = TRUE]
  group_by(id) %>%
  ## Part below can for sure be optimized for code length, it's just too early now...
  transmute(rl = max(rl)) %>% # Cannot transmute id directly
  unique() %>%
  ungroup() %>%
  slice(rep(1:n(), times = rl - 1L)) %>%
  group_by(id) %>%
  transmute(V1 = seq_len(max(rl) - 1L)) %>%
  ungroup() %>%
  right_join(tmp_dplyr, by = 'id') %>%
  ## End or replicating tmp[tmp[, seq_len(max(rl) - 1L), by = .(id)], on = .(id), allow.cartesian = TRUE]
  ## Copy descending counts to rows before the switch and ascending counts to rows after the switch
  mutate(
    PM = ifelse(rl == V1, dn, NA),
    PM = ifelse(rl == V1 + 1L, up, PM)
  ) %>%
  ## This is very not tidyverse-sque, but I don't get the gather/spread ...
  dcast(id + TF + rn ~ sprintf("PM%02d", V1), value.var = "PM") %>%
  full_join(df, by = c('rn', 'id', 'TF')) %>%
  select(-rn)

all.equal( ## Using data.table all.equal
  res_dplyr[do.call(order, res_dplyr),] %>% as.data.table(),
  res_dt[do.call(order, res_dt),]
)

Answer 3

我的答案没有data.table，但没有使用dplyr。这是我尝试使用dplyr：

        #Remove the NAs 
dfr <-  df %>% filter(!is.na(TF)) %>% 
  # group by id
  group_by(id) %>% 
  # Calculate the rle on TF for each group
  do(., mrle = rle(.$TF)) %>% mutate(Total=sum(mrle$lengths)) %>%
  # Trasform the rle result in a data.frame counting the values after and before changes
  do( {
  t<- .$mrle
  #for each length generate the columns
  res <- as.data.frame(lapply(seq_along(t$lengths[-length(t$lengths)]), function(i) {

      #before change counts
      n1 <- t$lengths[i]
      #position  the counts
      if(i==1) {
        before <- 0
      } else {
        before <- sum(t$lengths[1:i-1])
      }

      #after change conts
      n2 <- t$lengths[i+1]

      if(i == (length(t$lengths)-1))
        after  <- 0
      else
        after <- .$Total - before - n1 - n2

      # assemble the column
      c(rep(NA,before),-n1:-1,1:n2, rep(NA,after))

    } ))

  colnames(res) <- paste0("PM", 1:ncol(res))
  #preserve the id
  cbind(id=.$id,res)

 })

#Join with the original data.frame
res <-  df %>% mutate(rn = row_number()) %>% filter(!is.na(TF)) %>% bind_cols(dfr) %>% right_join( df %>% mutate(rn = row_number()) ) %>% select(-rn, -id1)

#Verify
mapply(all.equal, dfa,res)
#  id   TF PM01 PM02 PM03 PM04 PM05 
#TRUE TRUE TRUE TRUE TRUE TRUE TRUE

使用tidyverse;在组内变化之前和之后计数，为每个唯一班次生成新变量

3 个答案:

使用位优化的data.table函数进行更新：

旧部分：