折叠矩阵以将一列中的值与另一列中的值相加

时间:2012-08-01 23:51:56

标签: r matrix

我有一个包含三列的矩阵:县,日期和ED访问次数。每个县的日期重复,像这样(只是一个例子):

  County A  1/1/2012  2
  County A  1/2/2012  0
  County A  1/3/2012  5
  ... etc.
  County B  1/1/2012  3
  County B  1/2/2012  4
  ... etc.

我想折叠这个矩阵来总结每个县的所有县的访问量。所以它看起来像这样:

1/1/2012  5
1/2/2012  4
etc.

我正在尝试使用R中的"table()"函数,但似乎无法通过这种方式按日期访问操作。当我"table(dt$date, dt$Visits)"时,它会给我一个频率表,如下所示:

             0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  2011-01-01 3 1 2 0 1 1 0 2 0 0  0  0  0  0  0  0
  2011-01-02 2 3 1 0 0 1 0 0 1 0  2  0  0  0  0  0
  2011-01-03 3 1 1 2 1 0 0 0 0 1  0  0  0  0  1  0

有什么建议吗?有没有更好的功能使用,也许是某种“总和”?

谢谢!

2 个答案:

答案 0 :(得分:5)

table()不是用于值的总和,而是用于记录计数。如果您想使用tapply,您将获得一个表输出并可以应用sum函数。或者,您可以使用ave获取与数据帧长度相等的和向量。也许:

  with( EDcounts, tapply(EDcounts[[3]], EDcounts[[2]], sum, na.rm=TRUE) )

如果您将“访问”列名称放在公式的LHS上,您也可以将xtabs哄骗到访问次数的总和。

答案 1 :(得分:3)

正如@DWin所述,table()不是用于求和,而是用于记录计数。

我使用plyrdata.tableaggregate

提供了三个方法示例
all_data <- expand.grid(country = paste('Country', LETTERS[1:3]), 
  date = seq(as.Date('2012/01/01'), as.Date('2012/12/31'), by = 1) )

all_data[['ed_visits']] <- rpois(nrow(all_data), lambda = 5)



# using plyr

library(plyr)

by_date_plyr <- ddply(all_data, .(date), summarize, visits = sum(ed_visits))


# using data.table
library(data.table)
all_DT <- data.table(all_data)
by_date_dt <- all_DT[, list(visits = sum(ed_visits)), by = 'date' ]

# using aggregate
by_date_base <- aggregate(ed_visits ~ date, data = all_data, sum)