我在R
中有一个数据帧,其中有两个变量:a
和b
。
我想逐行测试变量a
是否包含模式'确定'。
如果它是TRUE
,我想在同一行中倒置变量a
和变量b
的内容。
以下代码有效:
for(i in 1:nrow(dataframe)){
if(!is.na(grep('OK', dataframe$a[i])[1])){
b = dataframe$b[i]
dataframe$b[i] <- dataframe$a[i]
dataframe$a[i] <- b
}
}
我想知道是否有更好的方法来获得相同的结果,但是更快?
答案 0 :(得分:2)
通过在R中使用矢量化函数,可以在一个函数调用中测试所有行。您可以在以下示例中看到我的代码快50倍。
在这种情况下,if_else
是ifelse
的向量化版本,而str_detect
是grep
的向量化版本。 tidyverse
程序包和管道提供功能select
和mutate
,这些功能使使用矢量化函数轻松处理数据帧变得容易。
library(tidyverse)
n <- 10000
sampledata <- data.frame(aa=rbinom(n, 1, 0.5), b = rep("bvalue", n), stringsAsFactors = FALSE) %>%
mutate(a = if_else(aa == 0, "nothing", "OK")) %>%
select(a, b, -aa)
yourcode <- function(sampledata) {
newdata <- sampledata
for(i in 1:nrow(sampledata)){
if(!is.na(grep('OK', sampledata$a[i])[1])){
b <- sampledata$b[i]
newdata$b[i] <- sampledata$a[i]
newdata$a[i] <- b
}
}
return(newdata)
}
# using vectorized functions and tidyverse will make your code faster
mycode <- function(sampledata) {
newdata <- sampledata %>% mutate(new_b = if_else(str_detect(a, "OK"), a, b),
new_a = if_else(str_detect(a, "OK"), b, a)) %>%
select(-a, -b, a = new_a, b = new_b)
return(newdata)
}
system.time(yourcode(sampledata))
#> user system elapsed
#> 1.46 0.03 1.56
system.time(mycode(sampledata))
#> user system elapsed
#> 0.03 0.00 0.03
由reprex package(v0.2.1)于2019-02-20创建