我有一个包含三列的矩阵:县,日期和ED访问次数。每个县的日期重复,像这样(只是一个例子):
County A 1/1/2012 2
County A 1/2/2012 0
County A 1/3/2012 5
... etc.
County B 1/1/2012 3
County B 1/2/2012 4
... etc.
我想折叠这个矩阵来总结每个县的所有县的访问量。所以它看起来像这样:
1/1/2012 5
1/2/2012 4
etc.
我正在尝试使用R中的"table()"
函数,但似乎无法通过这种方式按日期访问操作。当我"table(dt$date, dt$Visits)"
时,它会给我一个频率表,如下所示:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2011-01-01 3 1 2 0 1 1 0 2 0 0 0 0 0 0 0 0
2011-01-02 2 3 1 0 0 1 0 0 1 0 2 0 0 0 0 0
2011-01-03 3 1 1 2 1 0 0 0 0 1 0 0 0 0 1 0
有什么建议吗?有没有更好的功能使用,也许是某种“总和”?
谢谢!
答案 0 :(得分:5)
table()
不是用于值的总和,而是用于记录计数。如果您想使用tapply
,您将获得一个表输出并可以应用sum
函数。或者,您可以使用ave
获取与数据帧长度相等的和向量。也许:
with( EDcounts, tapply(EDcounts[[3]], EDcounts[[2]], sum, na.rm=TRUE) )
如果您将“访问”列名称放在公式的LHS上,您也可以将xtabs
哄骗到访问次数的总和。
答案 1 :(得分:3)
正如@DWin所述,table()
不是用于求和,而是用于记录计数。
我使用plyr
,data.table
和aggregate
all_data <- expand.grid(country = paste('Country', LETTERS[1:3]),
date = seq(as.Date('2012/01/01'), as.Date('2012/12/31'), by = 1) )
all_data[['ed_visits']] <- rpois(nrow(all_data), lambda = 5)
# using plyr
library(plyr)
by_date_plyr <- ddply(all_data, .(date), summarize, visits = sum(ed_visits))
# using data.table
library(data.table)
all_DT <- data.table(all_data)
by_date_dt <- all_DT[, list(visits = sum(ed_visits)), by = 'date' ]
# using aggregate
by_date_base <- aggregate(ed_visits ~ date, data = all_data, sum)