Question

我有一个如下所示的数据集：

ID  a   b
ID1 0.1 20.3
ID2 0.2 21.6
ID3 1.2 1.5
etc.

我想将这些值分组为相等大小的组。这可以通过以下方式完成：

data$bin1 <- as.numeric(cut2(data$b,g=50))

这将获取b列中的值，并将它们分成50个相等大小的组：

ID  a   b    bin
ID1 0.1 20.3 2
ID2 0.2 21.6 2
ID3 1.2 1.5  1
etc.

但是，我需要多次使用不同数量的组。我试过了：

for (i in 1:5){
data$bin[i] <- as.numeric(cut2(data$values,g=i*50))
}

但后来我收到了这个警告：“要替换的项目数量不是替换长度的倍数”。

在对值进行分组后，我想计算每个组中的均值，可以通过以下方式完成：

means <- ddply(data,.(bin),summarise,mean.a=mean(a),mean.b=mean(b))

我想对所有的bin尺寸都这样做。我需要使用另一个for循环吗？或者它可以在第一个循环中实现吗？

Answer 1

for (i in 1:5){
    data[paste('bin', i, sep = '')] <- as.numeric(cut2(data$values,g=i*50))
}

会使用bin1将bin5列添加到paste到您的数据框。

Answer 2

此处有可能使用lapply循环数据框中的列，sapply循环显示值cut的多个时间间隔（＆＃34; n_int＆＃34）。结果列表melt为长格式。

平均值使用aggregate计算，按＆＃34; L1＆＃34; （对应于原始数据中的列），＆＃34; cut_set＆＃34; （一组切割，2或4个间隔）和＆＃34;间隔＆＃34; （区间号码）。

# some toy data
d1 <- data.frame(a = 1:10,
                 b = seq(100, 1000, len = 10))
d1

# a vector of number of intervals
n_int <- 2 * 1:2

library(reshape2)
d2 <- melt(lapply(d1, function(x){
  data.frame(x, sapply(n_int, function(i){
    as.integer(cut(x, i))
  })
  )
  }),
  id.vars = "x", variable.name = "cut_set", value.name = "interval")

d3 <- aggregate(x ~ L1 + cut_set + interval, data = d2, mean)
d3[order(d3$L1, d3$cut_set, d3$interval), ]
#    L1 cut_set interval     x
# 1   a      X1        1   3.0
# 5   a      X1        2   8.0
# 3   a      X2        1   2.0
# 7   a      X2        2   4.5
# 9   a      X2        3   6.5
# 11  a      X2        4   9.0
# 2   b      X1        1 300.0
# 6   b      X1        2 800.0
# 4   b      X2        1 200.0
# 8   b      X2        2 450.0
# 10  b      X2        3 650.0
# 12  b      X2        4 900.0

使用dplyr的另一种方式：

library(dplyr)
d1 %>%
  melt(id.vars = NULL) %>%
  group_by(variable) %>%
  do(data.frame(., sapply(n_int, function(i) as.integer(cut(.$value, i))))) %>%
  melt(id.vars = c("variable", "value"), variable.name = "cut_set", value.name = "interval") %>%
  group_by(variable, cut_set, interval) %>%
  summarise(mean = mean(value))

切割几个变量，为每个变量使用几个不同数量的箱

2 个答案: