我有一个数据集,在其中观察到一些人而不是其他人的变量。对于那些我观察变量的人,我只观察一次。但是,每个人的观察次数以及观察值的位置会有所不同。
如果有非NA值,我想用非NA值填充给定个体的所有NA值。否则,NA应该保留为NA。
这是一个示例数据集:
#data.frame of 100 individuals with 10 observations each
data <- data.frame(group = rep(1:100,each=10),value = NA)
#first 50 individuals get a value at the fifth observation, others don't have value
data$value[seq(5,500,10)] <- rnorm(50)
到目前为止,还算不错,不是什么大问题。从另一个线程获取,我们可以使用dplyr
和tidyr
做这样的事情:
data <- data %>%
group_by(group) %>% #by group
fill(value) %>% #default direction down
fill(value, .direction = "up") #also fill NAs upwards
这可以很好地解决问题。但是,我必须在80mio左右执行此操作。观察,这需要几个小时。有没有更快的方法?我认为data.table
可能是一个不错的候选人。
如果可以修改该方法以仅填充出现在值之前的NA,那也将是很好的。
谢谢!
答案 0 :(得分:6)
您可以对data.table和dplyr使用非常简单的方法,我相信这将是非常快速和高效的:
在data.table中:
library(data.table)
setDT(data)
data[, value := value[!is.na(value)][1L], by = group]
或dplyr:
library(dplyr)
data <- data %>%
group_by(group) %>%
mutate(value = value[!is.na(value)][1L])
要点是,每个组的非NA值分别为o或1次。因此,您不需要进行最后观察的转发逻辑。只需获取第一个非NA值(如果存在)。
答案 1 :(得分:2)
我们可以使用na.locf
进行分配。这里,zoo
中的library(data.table)
library(zoo)
setDT(data)[, value := na.locf(na.locf(value, na.rm = FALSE), fromLast = TRUE), group]
用于用相邻的非NA元素填充NA元素
set.seed(24)
data1 <- data.frame(group = rep(1:1e6,each=10),value = NA)
data1$value[seq(5,1e6,10)] <- rnorm(100000)
data2 <- copy(data1)
system.time({setDT(data2)[, value := na.locf(na.locf(value,
na.rm = FALSE), fromLast = TRUE), group]})
# user system elapsed
# 70.681 0.294 70.917
system.time({
data1 %>%
group_by(group) %>% #by group
fill(value) %>% #default direction down
fill(value, .direction = "up")
})
# 17% ~33 m remaining
{{1}}
注意:这花费了很多时间。因此必须中止会话。
注意2:这种方法是基于以下假设:我们要用非NA相邻元素替换NA元素,并且每组有不止一个非NA元素
答案 2 :(得分:1)
这是我使用的代码:您的代码vs akrun vs我的代码。有时动物园不是最快的过程,但它是最干净的过程。无论如何,您可以对其进行测试。
更新: 它已经过测试,具有更多数据(100.000),并且到目前为止,Process 03(子集和合并)获胜。
最新更新 与rbenchmark的功能比较:
library(dplyr)
library(tidyr)
library(base)
library(data.table)
library(zoo)
library(rbenchmark)
#data.frame of 100 individuals with 10 observations each
data <- data.frame(group = rep(1:10000,each=10),value = NA)
data$value[seq(5,5000,10)] <- rnorm(50) #first 50 individuals get a value at the fifth observation, others don't have value
#Process01
P01 <- function (data){
data01 <- data %>%
group_by(group) %>% #by group
fill(value) %>% #default direction down
fill(value, .direction = "up") #also fill NAs upwards
return(data01)
}
#Process02
P02 <- function (data){
data02 <- setDT(data)[, value := na.locf(na.locf(value, na.rm = FALSE),
fromLast = TRUE), group]
return(data02)
}
#Process03
P03 <- function (data){
dataU <- subset(unique(data), value!='NA') #keep row number
dataM <- merge(data, dataU, by = "group", all=T) #merge tables
data03 <- data.frame(group=dataM$group, value = dataM$value.y) #idem shape of data
return(data03)
}
benchmark("P01_dplyr" = {data01 <- P01(data)},
"P02_zoo" = {data02 <- P02(data)},
"P03_data.table" = {data03 <- P03(data)},
replications = 10,
columns = c("test", "replications", "elapsed")
)
数据= 10.000、10次重复和I5 7400的结果:
test replications elapsed
1 P01_dplyr 10 257.78
2 P02_zoo 10 10.35
3 P03_data.table 10 0.09