Question

所以我有一个数据框，其中包含日期列，小时列和一系列其他数字列。数据框中的每一行是整整一年1小时的1天。

数据框如下所示：

          Date  Hour  Melbourne  Southern  Flagstaff
1   2009-05-01     0          0         5         17
2   2009-05-01     2          0         2          1
3   2009-05-01     1          0        11          0
4   2009-05-01     3          0         3          8
5   2009-05-01     4          0         1          0
6   2009-05-01     5          0        49         79
7   2009-05-01     6          0       425        610

小时数无序，因为这是从另一个数据框中的子集。

我想按月和可能按天将数值中的值相加。有谁知道我怎么能这样做？

Answer 1

我通过

创建数据集

data <- read.table( text="   Date    Hour    Melbourne   Southern    Flagstaff
                       1   2009-05-01  0   0   5   17
                       2   2009-05-01  2   0   2   1
                       3   2009-05-01  1   0   11  0
                       4   2009-05-01  3   0   3   8
                       5   2009-05-01  4   0   1   0
                       6   2009-05-01  5   0   49  79
                       7   2009-05-01  6   0   425 610",
                    header=TRUE,stringsAsFactors=FALSE)

您可以使用函数aggregate：

进行求和

byday <- aggregate(cbind(Melbourne,Southern,Flagstaff)~Date,
             data=data,FUN=sum)
library(lubridate)
bymonth <- aggregate(cbind(Melbourne,Southern,Flagstaff)~month(Date),
             data=data,FUN=sum)

查看?aggregate以更好地了解功能。从最后一个参数开始（因为这使得解释更容易），参数执行以下操作：

FUN是应该用于聚合的函数。我使用sum来总结这些值，但我也可能是mean，max或您自己编写的某些函数。
data用于表示我想要汇总的数据框。
第一个参数告诉函数我想要聚合的是什么。在~的左侧，我指出了我想要聚合的变量。如果有多个，则将其与cbind合并。右侧是应该分割数据的变量。放Date表示聚合将总结Date的每个不同值的变量。

对于按月汇总，我使用了包month中的函数lubridate。它完成了人们的期望：它返回一个数值，表示给定日期的月份。也许您首先需要按install.packages("lubridate")安装软件包。

如果您不想使用lubridate，则可以执行以下操作：

data <- transform(data,month=as.numeric(format(as.Date(Date),"%m")))
bymonth <- aggregate(cbind(Melbourne,Southern,Flagstaff)~month,
                     data=data,FUN=sum)

在这里，我为包含月份的数据添加了一个新列，然后由该列汇总。

Answer 2

这可能是使用data.table

执行此操作的另一种方法

library(data.table)
# Edited as per Arun's comment
out = setDT(data)[, lapply(.SD, sum), by=Date] 

#>out
#         Date Hour Melbourne Southern Flagstaff
#1: 2009-05-01   21         0      496       715

或使用dplyr

library(dplyr)
out = data %>% group_by(Date) %>% summarise_each(funs(sum))

#>out
#Source: local data frame [1 x 5]
#        Date Hour Melbourne Southern Flagstaff
#1 2009-05-01   21         0      496       715

Answer 3

另一个基础R解决方案

# to sum by date
rowsum(dat[-1], dat$Date)
#           Hour Melbourne Southern Flagstaff
#2009-05-01   21         0      496       715

# or by month and year
rowsum(dat[-1], format(dat$Date, "%b-%y") )
#       Hour Melbourne Southern Flagstaff
#May-09   21         0      496       715

Answer 4

我会使用dplyr :: summarize和group_by，每个数字列都有一个总和：

summarize(group_by(df, Date), m_count = sum(Melbourne), s_count = sum(Southern), f_count = sum(Flagstaff)

在R中按月汇总行数

4 个答案: