将5分钟数据汇总为每小时总和当前NA' s

时间:2015-11-20 13:28:56

标签: r time-series aggregate

我的问题如下:我有一个5分钟降水数据的时间序列,如:

            Datum mm
1 2004-04-08 00:05:00 NA
2 2004-04-08 00:10:00 NA
3 2004-04-08 00:15:00 NA
4 2004-04-08 00:20:00 NA
5 2004-04-08 00:25:00 NA
6 2004-04-08 00:30:00 NA

具有这种结构:

'data.frame':   1098144 obs. of  2 variables:
$ Datum: POSIXlt, format: "2004-04-08 00:05:00" "2004-04-08 00:10:00"   "2004-04-08 00:15:00" "2004-04-08 00:20:00" ...
$ mm   : num  NA NA NA NA NA NA NA NA NA NA ...

正如你所看到的,时间序列以很多NA's开始,但是由于测量站的故障,测量的降水量进一步下降,尽管是单一的,不太常见的NA's

我想要实现的目标是将测量的降水量与每小时总和相加,而不是考虑NA's

这是我到目前为止所尝试的:

sums <- aggregate(precip["mm"], 
               list(cut(precip$Datum, "1 hour")), sum)

即使时间戳已正确汇总到小时,所有总和都是0NA。如果根本没有NA,则甚至不计算总和。

编辑还需要考虑:

气象学中的每小时降水量总是描述累积总和直到某个小时:0:00时钟的降水量描述前一天23:00的总和直到 0:00。所以我总是需要总结前一个小时。

可重复的示例

set.seed(1120)
s <- as.POSIXlt("2004-03-08 23:00:00")
r <- seq(s, s+1e4, "30 min")
precip <- data.frame(Datum=r, mm=sample(c(1:5,NA), 6, T))

            Datum mm
2004-03-08 23:00:00  4
2004-03-08 23:30:00  1
2004-03-09 00:00:00  2
2004-03-09 00:30:00  4
2004-03-09 01:00:00  1
2004-03-09 01:30:00  4

通过上面的例子,我要找的结果是:

            Datum mm
2004-03-09 00:00:00 5
2004-03-09 01:00:00 6
2004-03-09 02:00:00 5

非常感谢帮助!

谢谢!

2 个答案:

答案 0 :(得分:2)

尝试添加na.rm=TRUE

aggregate(precip['mm'], list(cut(precip$Datum, "1 hour")), sum, na.rm=TRUE)
#               Group.1 mm
# 1 2004-04-08 00:00:00 26
# 2 2004-04-08 01:00:00 35
# 3 2004-04-08 02:00:00 25

可重复的示例

set.seed(1120)
s <- as.POSIXlt("2004-04-08 00:05:00")
r <- seq(s, s+1e4, "5 min")
precip <- data.frame(Datum=r, mm=sample(c(1:5,NA), 34, T))

<强>附录

关于第二个问题:如果您希望使用较小的小时计算小时的测量值,请添加right=TRUE

aggregate(precip['mm'], list(cut(precip$Datum, "1 hour", right=TRUE)), sum, na.rm=TRUE)

进一步说明

我们将创建另一个更详细的解释来说明解决方案的工作原理:

p <- c("2004-04-07 23:48:20", "2004-04-08 00:00:00", "2004-04-08 00:03:20")
ptime <- as.POSIXlt(p)
#[1] "2004-04-07 23:48:20 EDT" "2004-04-08 00:00:00 EDT" "2004-04-08 00:03:20 EDT"

我们有三个日期分成小组。如果我们使用cut而没有任何额外参数,则第二个条目"2004-04-08 00:00:00 EDT"将与小时"00:00"的第三个条目分组:

cut(ptime, "1 hour")
#[1] 2004-04-07 23:00:00 2004-04-08 00:00:00 2004-04-08 00:00:00

但是如果我们添加参数right=FALSE,我们可以将其与"23:00"小时分组:

cut(ptime, "1 hour", right=TRUE)
#[1] 2004-04-07 23:00:00 2004-04-07 23:00:00 2004-04-08 00:00:00

我们可以指定边缘情况的行为。

修改

使用您的新数据,原始解决方案会产生所需的输出:

aggregate(precip['mm'], list(cut(precip$Datum, "1 hour")), sum, na.rm=TRUE)
              Group.1 mm
1 2004-03-08 23:00:00  5
2 2004-03-09 00:00:00  6
3 2004-03-09 01:00:00  5

答案 1 :(得分:0)

您可以使用dplyr计算总和,如:

precip$hour <-  strftime(precip$Datum,"%Y-%m-%d %H")
library(dplyr)
sum_hour <- precip %>% group_by(hour) %>% summarise(sum_hour = sum(mm,na.rm = T))