我有一个包含144列和1000行的数据框。它包含36个不同的变量,每个变量总是4个值 - 它看起来就是这样:
1a-1d \t 2a-2d \t 3a-3d..........36a-36d
2 1 4 5 \t 3 4 5 3 \t 32 1 3 1.......3 12 4 1
.
.
4 5 2 6 \t 4 5 2 6 \t 23 5 2 5......3 1 5 6
我想要做的是总是将a与d相加,并使用向量的元素命名输出,例如names=c("AC_syn","AC_non",...)
。
我认为命令必须是:
ddply(a, .(), summarise, names[1]=a[,1]+a[,2]+a[,3]+a[,4], ...)
但必须有更优雅的方式吗?没有太多的复制粘贴工作?我为每一个想法和一点帮助感到高兴!
很抱歉,我没有说清楚。实际上我想在每第四步(1-4,5-8 ...... 141-144)之后得到列的总和,并用向量中给出的变量重命名新数据帧。 所以对于输入:
2 1 4 5 \t 3 4 5 3 \t 32 1 3 1.......3 12 4 1
应该回复
12 15 37.....20
答案 0 :(得分:1)
依靠矩阵乘法来实现它的有趣方法:
首先创建一个只有0和1的关联矩阵来对数据集进行后乘(假设它被称为df):
M = matrix(0, 144, 36)
M = (row(M) >= {(col(M)-1)*4 + 1} & row(M) < {(col(M)-1)*4 + 5})*1
然后将M乘以df并命名列:
sumvar = as.matrix(df) %*% M
names(sumvar) = c("AC_syn","AC_non",...)
sumvar将有36列和1000行。以防万一,M看起来像这样:
[,1] [,2] [,3] [,4]...
[1,] 1 0 0 0
[2,] 1 0 0 0
[3,] 1 0 0 0
[4,] 1 0 0 0
[5,] 0 1 0 0
[6,] 0 1 0 0
[7,] 0 1 0 0
[8,] 0 1 0 0
...
答案 1 :(得分:0)
由于您的数据很小,FOR循环如何。这可能是粗暴的方式,但它仍然有效 -
j=seq(1,141,4)
k=j+3
for(i in 1:length(names))
{
new_col <- paste("sum_",i)
ds$new_col <- rowSums(ds[,j[i]:k[i]])
}
ds是您的数据集名称。
答案 2 :(得分:0)
如果你想每四列加一次
# example data
set.seed(1)
(df <- data.frame(replicate(8,rnorm(5))))
X1 X2 X3 X4 X5 X6 X7
#1 -0.6264538 -0.8204684 1.5117812 -0.04493361 0.91897737 -0.05612874 1.35867955
#2 0.1836433 0.4874291 0.3898432 -0.01619026 0.78213630 -0.15579551 -0.10278773
#3 -0.8356286 0.7383247 -0.6212406 0.94383621 0.07456498 -1.47075238 0.38767161
#4 1.5952808 0.5757814 -2.2146999 0.82122120 -1.98935170 -0.47815006 -0.05380504
#5 0.3295078 -0.3053884 1.1249309 0.59390132 0.61982575 0.41794156 -1.37705956
X8
#1 -0.4149946
#2 -0.3942900
#3 -0.0593134
#4 1.1000254
#5 0.7631757
为要汇总的列创建指标 - 每四列汇总一次
(ind <- rep(1:2,each=4))
#[1] 1 1 1 1 2 2 2 2
根据ind
汇总列t(rowsum(t(df),ind))
# 1 2
#[1,] 0.01992536 1.8065336
#[2,] 1.04472535 0.1292631
#[3,] 0.22529172 -1.0678292
#[4,] 0.77758346 -1.4212814
#[5,] 1.74295162 0.4238835
然后,您可以使用colnames
指定列名称。