我想贬低R data.frame
中的多个列。使用this question
set.seed(999)
library(plyr)
library(plm)
# random data.frame
dat <- expand.grid(id=factor(1:3), cluster=factor(1:6))
dat <- cbind(dat, x=runif(18), y=runif(18, 2, 5))
#demean x and y
dat.2 <- ddply(dat, .(cluster), transform, x=x-mean(x), y=y-mean(y))
我的问题是我有(很多)超过2个变量,我想避免硬编码这个分析。我一般都是plyr
的新手;为什么这个
dat.2 <- ddply(dat[,c(x,y)], .(cluster), transform, function(x) x - mean(x))
不行吗?我缺少一些关键步骤吗?有没有更好的方法来做到这一点?
答案 0 :(得分:5)
查看colwise
仿函数。唯一需要注意的是id
列。因此:
demean <- colwise(function(x) if(is.numeric(x)) x - mean(x) else x)
dat.2 <- ddply(dat, .(cluster), demean)
编辑:正如您所发现的,甚至还有一个numcolwise
仿函数,只处理数字,所以你可以这样做:
demean <- numcolwise(function(x) x - mean(x))
dat.2 <- ddply(dat, .(cluster), demean)
您也可以使用scale
功能而不是定义自己的功能:
dat.2 <- ddply(dat, .(cluster), numcolwise(scale, scale = FALSE))