R帮助:通过因子产生的总和除以值

时间:2015-01-20 12:42:03

标签: r data.table matrix-math

我试图将列B和C中的每个值除以由于A列中的因子而得到的总和。 起始矩阵可能看起来像这样,但有几千行 其中A是一个因子,B和C包含值:

A <- c(1,1,2,2)
B <- c(0.2, 0.3, 1, 0.5)
C <- c(0.7, 0.5, 0, 0.9)
M <- data.table(A,B,C) 

> M
     A   B   C
[1,] 1 0.2 0.7
[2,] 1 0.3 0.5
[3,] 2 1.0 0.0
[4,] 2 0.5 0.9 

这些因素可以发生任何次数。 我能够使用库data.table:

生成每个因子的总和
library(data.table)
M.dt <- data.table(M)
M.sum <- M.dt[, lapply(.SD, sum), by = A]

> M.sum
   A   B   C
1: 1 0.5 1.2
2: 2 1.5 0.9

但是不知道如何从这里继续保持表格的原始格式。

结果表应如下所示:

B.1 <- c(0.4, 0.6, 0.666, 0.333)
C.1 <- c(0.583, 0.416, 0, 1)
M.1 <- cbind(A, B.1, C.1)

> M.1
     A   B.1     C.1
[1,] 1 0.400 0.58333
[2,] 1 0.600 0.41666
[3,] 2 0.666 0.00000
[4,] 2 0.333 1.00000

B.1中第一个值的计算如下: 0.2 /(0.2 + 0.3)= 0.4等等,其中要添加的值由A中的因子给出 我对R有一些基本的了解,但是尽管我努力了,但我对矩阵操作和循环做得很糟糕。

2 个答案:

答案 0 :(得分:2)

根据sum

中的每个值,将每列中的每个值除以A
M[, lapply(.SD, function(x) x/sum(x)), A]
#    A         B         C
# 1: 1 0.4000000 0.5833333
# 2: 1 0.6000000 0.4166667
# 3: 2 0.6666667 0.0000000
# 4: 2 0.3333333 1.0000000

如果您想通过参考更新

M[, c("B", "C") := lapply(.SD, function(x) x/sum(x)), A]

或者更一般地说

M[, names(M)[-1] := lapply(.SD, function(x) x/sum(x)), A]

dplyr瘾君子的奖金解决方案

library(dplyr)
M %>%
  group_by(A) %>%
  mutate_each(funs(./sum(.)))

# Source: local data table [4 x 3]
# Groups: A
# 
#   A         B         C
# 1 1 0.4000000 0.5833333
# 2 1 0.6000000 0.4166667
# 3 2 0.6666667 0.0000000
# 4 2 0.3333333 1.0000000

答案 1 :(得分:0)

与此类型的大多数问题一样,您可以使用data.tableplyr包或基本R中的split,apply,combine功能的某种组合。

对于那些喜欢plyr

的人
library (dplyr)
M <- data.table(A,B,C) 

ddply(M, .(A), colwise(function(x) x/sum(x)))

输出是:

  A         B         C
1 1 0.4000000 0.5833333
2 1 0.6000000 0.4166667
3 2 0.6666667 0.0000000
4 2 0.3333333 1.0000000