如何在R中更快地迭代和测试数据帧的列?

时间:2019-02-20 00:21:06

标签: r loops dataframe grep

我在R中有一个数据帧,其中有两个变量:ab

我想逐行测试变量a是否包含模式'确定'

如果它是TRUE,我想在同一行中倒置变量a和变量b的内容。

以下代码有效:

for(i in 1:nrow(dataframe)){
  if(!is.na(grep('OK', dataframe$a[i])[1])){
    b = dataframe$b[i]
    dataframe$b[i] <- dataframe$a[i]
    dataframe$a[i] <- b
  }
}

我想知道是否有更好的方法来获得相同的结果,但是更快?

1 个答案:

答案 0 :(得分:2)

通过在R中使用矢量化函数,可以在一个函数调用中测试所有行。您可以在以下示例中看到我的代码快50倍。

在这种情况下,if_elseifelse的向量化版本,而str_detectgrep的向量化版本。 tidyverse程序包和管道提供功能selectmutate,这些功能使使用矢量化函数轻松处理数据帧变得容易。

library(tidyverse)

n <- 10000
sampledata <- data.frame(aa=rbinom(n, 1, 0.5), b = rep("bvalue", n), stringsAsFactors = FALSE) %>% 
  mutate(a = if_else(aa == 0, "nothing", "OK")) %>% 
  select(a, b, -aa)

yourcode <- function(sampledata) {  
  newdata <- sampledata
  for(i in 1:nrow(sampledata)){
    if(!is.na(grep('OK', sampledata$a[i])[1])){
      b <- sampledata$b[i]
      newdata$b[i] <- sampledata$a[i]
      newdata$a[i] <- b
    }
  }
  return(newdata)
}

# using vectorized functions and tidyverse will make your code faster

mycode <- function(sampledata) {
  newdata <- sampledata %>% mutate(new_b = if_else(str_detect(a, "OK"), a, b),
                                   new_a = if_else(str_detect(a, "OK"), b, a)) %>%
    select(-a, -b, a = new_a, b = new_b)
  return(newdata)
  }

system.time(yourcode(sampledata))
#>    user  system elapsed 
#>    1.46    0.03    1.56
system.time(mycode(sampledata))
#>    user  system elapsed 
#>    0.03    0.00    0.03

reprex package(v0.2.1)于2019-02-20创建