idata.frame:为什么错误“is.data.frame(df)不为TRUE”?

时间:2010-10-20 18:17:45

标签: performance r plyr data.table

我在R中使用名为exp(file here)的大型数据框。为了提高性能,建议我从plyr查看idata.frame()函数。但我认为我错了。

我原来的电话,很慢但是有效:

df.median<-ddply(exp, 
                 .(groupname,starttime,fPhase,fCycle), 
                 numcolwise(median), 
                 na.rm=TRUE)

使用idata.frame,Error: is.data.frame(df) is not TRUE

library(plyr)
df.median<-ddply(idata.frame(exp), 
                 .(groupname,starttime,fPhase,fCycle), 
                 numcolwise(median), 
                 na.rm=TRUE)

所以,我想,也许这是我的数据。所以我尝试了baseball数据集。 idata.frame示例工作正常:dlply(idata.frame(baseball), "id", nrow)但如果我尝试使用baseball尝试类似于我想要的呼叫,则无效:

bb.median<-ddply(idata.frame(baseball), 
                 .(id,year,team), 
                 numcolwise(median), 
                 na.rm=TRUE)
>Error: is.data.frame(df) is not TRUE

也许我的错误在于我如何指定分组?任何人都知道如何使我的例子有效吗?

ETA:

我也尝试过:

groupVars <- c("groupname","starttime","fPhase","fCycle")
voi<-c('inadist','smldist','lardist')

i<-idata.frame(exp)
ag.median <- aggregate(i[,voi], i[,groupVars], median)
Error in i[, voi] : object of type 'environment' is not subsettable

使用更快的方式来获取中位数,但会产生不同的错误。我认为我根本不懂如何使用idata.frame。

2 个答案:

答案 0 :(得分:1)

鉴于您正在使用“大”数据并寻找性能,这似乎非常适合data.table

具体为lapply(.SD,FUN).SDcols

bydata.table参数

设置library(data.table) DT <- as.data.table(exp) iexp <- idata.frame(exp)

numeric

哪些列为numeric_columns <- names(which(unlist(lapply(DT, is.numeric)))) dt.median <- DT[, lapply(.SD, median), by = list(groupname, starttime, fPhase, fCycle), .SDcols = numeric_columns]

library(rbenchmark)
benchmark(data.table = DT[, lapply(.SD, median), by = list(groupname, starttime, 
    fPhase, fCycle), .SDcols = numeric_columns], 
 plyr = ddply(exp, .(groupname, starttime, fPhase, fCycle), numcolwise(median), na.rm = TRUE), 
 idataframe = ddply(exp, .(groupname, starttime, fPhase, fCycle), function(x) data.frame(inadist = median(x$inadist), 
        smldist = median(x$smldist), lardist = median(x$lardist), inadur = median(x$inadur), 
        smldur = median(x$smldur), lardur = median(x$lardur), emptyct = median(x$emptyct), 
        entct = median(x$entct), inact = median(x$inact), smlct = median(x$smlct), 
        larct = median(x$larct), na.rm = TRUE)), 
 aggregate = aggregate(exp[, numeric_columns],
                       exp[, c("groupname", "starttime", "fPhase", "fCycle")], 
              median), 
 replications = 5)

##         test replications elapsed relative user.self 
## 4  aggregate            5    5.42    1.789      5.30   
## 1 data.table            5    3.03    1.000      3.03    
## 3 idataframe            5   11.81    3.898     11.77       
## 2       plyr            5    9.47    3.125      9.45       

一些基准测试

{{1}}

答案 1 :(得分:0)

奇怪的行为,但即使在文档中它也说idata.frame是实验性的。你可能发现了一个bug。也许你可以在ddply顶部重写检查is.data.frame()的检查。

无论如何,这减少了约20%的时间(在我的系统上):

system.time(df.median<-ddply(exp, .(groupname,starttime,fPhase,fCycle), function(x) data.frame(
inadist=median(x$inadist),
smldist=median(x$smldist),
lardist=median(x$lardist),
inadur=median(x$inadur),
smldur=median(x$smldur),
lardur=median(x$lardur),
emptyct=median(x$emptyct),
entct=median(x$entct),
inact=median(x$inact),
smlct=median(x$smlct),
larct=median(x$larct),
na.rm=TRUE))
) 

Shane在另一篇文章中问过你是否可以缓存脚本的结果。我真的不知道你的工作流程,但最好设置一个chron来运行它并每天/每小时存储结果。