我经常使用ddply
。我偶尔会使用有序因子。在包含有序因子的数据帧上调用ddply
会丢弃重组数据帧中的任何排序。
我为ddply
编写了以下包装器来记录级别排序,然后将其重新应用于最初订购的任何列:
dat <- data.frame(a=runif(10),b=factor(letters[10:1],
levels=letters[10:1],ordered=TRUE),
c = rep(letters[1:2],times=5),
d = factor(rep(c('lev1','lev2'),times=5),ordered=TRUE))
#Drops ordering on b and d
dat1 <- ddply(dat,.(c),transform,log_a = log(a))
ddplyKeepOrder <- function(dat,...){
orderedCols <- colnames(dat)[sapply(dat,is.ordered)]
levs <- lapply(dat[,orderedCols,drop=FALSE],levels)
result <- ddply(.data = dat,...)
ind <- match(orderedCols,colnames(result))
levs <- levs[!is.na(ind)]
orderedCols <- orderedCols[!is.na(ind)]
ind <- ind[!is.na(ind)]
if (length(ind) > 0){
for (i in 1:length(ind)){
result[,orderedCols[i]] <- factor(result[,orderedCols[i]],
levels=levs[[i]],ordered=TRUE)
}
}
return(droplevels(result))
}
#Preserves ordering on b and d
dat2 <- ddplyKeepOrder(dat,.variables = .(c),.fun = transform,log_a = log(a))
我没有彻底检查过这个功能,所以可能会出现无法处理的情况。是否有更好/更完整的方法来处理这个问题?我想,如果我考虑一下,我可能会移除for
循环。
特别是,我在ddply
调用之后检查是否仍然存在任何原始有序因子看起来真的很难看,但我希望该函数能够处理{{ 1}}改变存在哪些列,可能删除有序因子。
思想?
答案 0 :(得分:3)
我使用下面的代码来解决这些类型的问题(&#34; ddply&#34; not&#34;有序因素&#34;)它似乎没有问题处理您的具体示例(除了不同的行名称)
> dat2 <- do.call(rbind, lapply(split(dat, dat$c), transform, log_a=log(a)))
> str(dat2)
'data.frame': 10 obs. of 5 variables:
$ a : num 0.216 0.607 0.197 0.171 0.797 ...
$ b : Ord.factor w/ 10 levels "j"<"i"<"h"<"g"<..: 1 3 5 7 9 2 4 6 8 10
$ c : Factor w/ 2 levels "a","b": 1 1 1 1 1 2 2 2 2 2
$ d : Ord.factor w/ 2 levels "lev1"<"lev2": 1 1 1 1 1 2 2 2 2 2
$ log_a: num -1.532 -0.499 -1.625 -1.767 -0.227 ...