可重复数据集:
library(data.table)
library(dplyr)
library(zoo)
df = expand.grid(ID = sample(LETTERS[1:5]),
Date = seq.Date(as.Date("2012-01-01"), as.Date("2012-12-01"), by = "1 month"))
df = df[order(as.character(df$ID)),]
df = data.table(df, V1 = runif(nrow(df),0,1), V2 = runif(nrow(df),0,1), V3 = runif(nrow(df),0,1))
ind = sample(nrow(df), nrow(df)*.5)
na.gen <- function(x, ind){x[ind] <- NA}
df1 <- df %>% slice(., ind) %>% mutate_each(funs(na.gen), starts_with("V"))
df2 = df[!ind]
df <- rbind(df1, df2)
df <- df[order(as.character(df$ID), df$Date),]
df$ID = as.character(df$ID)
在上面的数据集中,我的想法是使用最后观察结转方法来估算数据。我原来的问题是一个非常大的数据集,所以我测试了dplyr
和data.table
解决方案。
final_dplyr <- df %>% group_by(ID) %>% mutate_each(funs(na.locf), starts_with("V"))
final_data.table <- df[, na.locf(.SD), by = ID]
data.table
为我提供了正确的解决方案,然而,dplyr
会混淆从NA开始的子集。我使用dplyr
收到以下警告:
Warning messages:
1: In `[.data.table`(`_dt`, , `:=`(V1, na.locf(V1)), by = `_vars`) :
Supplied 11 items to be assigned to group 1 of size 12 in column 'V1' (recycled leaving remainder of 1 items).
能否让我了解dplyr
我做错了什么?
答案 0 :(得分:7)
好的,这里发生了很多事情。首先,正如@Frank所说,这两个命令对不同的对象进行操作。关于每个na.locf(.SD)
的subset-data.table的ID
,每个dplyr
分别针对每个ID
。{/ p>
要确定问题所在,我会使用与data.table
语法等效的dplyr
。
df[, lapply(.SD, na.locf), by=ID]
# warning
我们收到相同的警告信息。似乎每个列返回的行数对于一个或多个组是不相同的。我们来检查一下。
df[, lapply(.SD, function(x) length(na.locf(x))), by=ID]
# ID Date V1 V2 V3
# 1: A 12 12 12 12
# 2: B 12 12 12 12
# 3: C 12 11 11 11 # <~~~ we've a winner!
# 4: D 12 12 12 12
# 5: E 12 12 12 12
为什么会这样?
head(df[ID == "C"])
# ID Date V1 V2 V3
# 1: C 2012-01-01 NA NA NA
# 2: C 2012-02-01 0.7475075 0.8917311 0.7601174
# 3: C 2012-03-01 0.4922747 0.7749479 0.3995417
# 4: C 2012-04-01 0.9013631 0.3388313 0.8873779
# 5: C 2012-05-01 NA NA NA
# 6: C 2012-06-01 NA NA NA
nrow(df[ID == "C", na.locf(.SD), .SDcols= -c("ID")])
# 12 as expected
nrow(df[ID == "C", lapply(.SD, na.locf), .SDcols= -c("ID")])
# 12, but with warnings
在列上单独使用na.locf()
会为V1:V4返回11
。为什么?这似乎是因为开头的NA
。 ?na.locf
有一个na.rm
参数,默认设置为TRUE
,从头开始删除NAs。因此,让我们将其设置为false并再试一次
nrow(df[ID == "C", lapply(.SD, na.locf, na.rm=FALSE), .SDcols = -c("ID")])
# 12, no warnings
它与na.locf(.SD)
一起使用,因为它在na.locf
列上运行了Date
,我认为它返回12
行。
实质上,您需要以某种方式在na.rm=FALSE
中设置dplyr
,或以某种方式让dplyr
以整个对象的形式工作。我不知道怎么做。
PS:请注意,您可以通过引用使用:=
更新 data.table,而不是使用data.table语法返回新对象。