Question

比方说，我有一个包含10 + 1列和10行的数据框，除一个列（“分组”列A）外，每个值都具有相同的单位。我正在尝试完成以下操作：给定基于最后一列的数据帧分组，我如何将整个块的标准偏差作为单个整体变量计算。

假设我进行分组（实际上是间隔cut）：

df %>% group_by(A)

根据我在该网站上收集的信息，您可以使用汇总或其他dplyr方法每列来计算方差，即： this（如果我的代表<10，那么我就不会让我嵌入）。在该图片中，我们可以看到分组为颜色，但是通过使用聚合，每指定的列我将获得1个标准差（我知道您可以使用cbind来获得多个变量，例如aggregate(cbind(V1,V2)~A, df, sd)）以及每组（以及使用dplyr和%>%的类似方法，并在末尾附加summarise(..., FUN=sd)）。

但是我想要的是this：就像您在Matlab中一样

group1 = df(row_group,:) % row_group would be df(:,end)==1 in this case
stdev(group1(:)) % operator (:) is key here
% iterate for every group

我有理由要这种特定方式，当然，真正的数据框比这个模拟示例还要大。

最小工作示例：

df <- data.frame(cbind(matrix(rnorm(100),10,10),c(1,2,1,1,2,2,3,3,3,1)))
colnames(df) <- c(paste0("V",seq(1,10)),"A")

df %>% group_by(A) %>% summarise_at(vars(V1), funs(sd(.))) # no good
aggregate(V1~A, data=df, sd) # no good
aggregate(cbind(V1,V2,V3,V4,V5,V6,V7,V8,V9,V10)~A, data=df, sd) # nope
df %>% group_by(A) %>% summarise_at(vars(V1,V2,V3,V4,V5,V6,V7,V8,V9,V10), funs(sd(.))) # same as above...

结果应为3个双精度数，每个均含该组的sd（如果添加了足够多的列，则应接近1）。

Answer 1

如果需要基本的R解决方案，请尝试以下操作。

sp <- split(df[-1], cut(df$A, breaks=c(2.1)))
lapply(sp, function(x) var(unlist(x)))
#$`(0.998,2]`
#[1] 0.848707
#
#$`(2,3]`
#[1] 1.80633

为了清楚起见，我将其编码为两行，但您可以避免创建sp并编写单行代码

lapply(split(df[-1], cut(df$A, breaks=c(2.1))), function(x) var(unlist(x)))

或者，对于其他形式的结果，

sapply(sp, function(x) var(unlist(x)))
#(0.998,2]     (2,3] 
# 0.848707  1.806330

数据

set.seed(6322)    # make the results reproducible
df <- data.frame(cbind(matrix(rnorm(100),10,10),c(1,2,1,1,2,2,3,3,3,1)))
colnames(df) <- c(paste0("V",seq(1,10)),"A")

R

1 个答案: