我有一个如下所示的数据集:
ID a b
ID1 0.1 20.3
ID2 0.2 21.6
ID3 1.2 1.5
etc.
我想将这些值分组为相等大小的组。这可以通过以下方式完成:
data$bin1 <- as.numeric(cut2(data$b,g=50))
这将获取b列中的值,并将它们分成50个相等大小的组:
ID a b bin
ID1 0.1 20.3 2
ID2 0.2 21.6 2
ID3 1.2 1.5 1
etc.
但是,我需要多次使用不同数量的组。我试过了:
for (i in 1:5){
data$bin[i] <- as.numeric(cut2(data$values,g=i*50))
}
但后来我收到了这个警告:“要替换的项目数量不是替换长度的倍数”。
在对值进行分组后,我想计算每个组中的均值,可以通过以下方式完成:
means <- ddply(data,.(bin),summarise,mean.a=mean(a),mean.b=mean(b))
我想对所有的bin尺寸都这样做。我需要使用另一个for循环吗?或者它可以在第一个循环中实现吗?
答案 0 :(得分:1)
for (i in 1:5){
data[paste('bin', i, sep = '')] <- as.numeric(cut2(data$values,g=i*50))
}
会使用bin1
将bin5
列添加到paste
到您的数据框。
答案 1 :(得分:1)
此处有可能使用lapply
循环数据框中的列,sapply
循环显示值cut
的多个时间间隔(&#34; n_int&#34)。结果列表melt
为长格式。
平均值使用aggregate
计算,按&#34; L1&#34; (对应于原始数据中的列),&#34; cut_set&#34; (一组切割,2或4个间隔)和&#34;间隔&#34; (区间号码)。
# some toy data
d1 <- data.frame(a = 1:10,
b = seq(100, 1000, len = 10))
d1
# a vector of number of intervals
n_int <- 2 * 1:2
library(reshape2)
d2 <- melt(lapply(d1, function(x){
data.frame(x, sapply(n_int, function(i){
as.integer(cut(x, i))
})
)
}),
id.vars = "x", variable.name = "cut_set", value.name = "interval")
d3 <- aggregate(x ~ L1 + cut_set + interval, data = d2, mean)
d3[order(d3$L1, d3$cut_set, d3$interval), ]
# L1 cut_set interval x
# 1 a X1 1 3.0
# 5 a X1 2 8.0
# 3 a X2 1 2.0
# 7 a X2 2 4.5
# 9 a X2 3 6.5
# 11 a X2 4 9.0
# 2 b X1 1 300.0
# 6 b X1 2 800.0
# 4 b X2 1 200.0
# 8 b X2 2 450.0
# 10 b X2 3 650.0
# 12 b X2 4 900.0
使用dplyr
的另一种方式:
library(dplyr)
d1 %>%
melt(id.vars = NULL) %>%
group_by(variable) %>%
do(data.frame(., sapply(n_int, function(i) as.integer(cut(.$value, i))))) %>%
melt(id.vars = c("variable", "value"), variable.name = "cut_set", value.name = "interval") %>%
group_by(variable, cut_set, interval) %>%
summarise(mean = mean(value))