我正在使用半小时分辨率的智能电表数据。由于数据量巨大,我试图将其从半小时分辨率降低到每小时分辨率。为此,我尝试对两个半小时测量之间的消耗量求和。问题是我的数据框中也有分类数据,使用xts时会丢失。这是我的数据:
> head(test1)
LCLid stdorToU DateTime KWH.hh..per.half.hour. Acorn Acorn_grouped
1 MAC000002 Std 2012-10-12 00:30:00 0 ACORN-A Affluent
2 MAC000002 Std 2012-10-12 01:00:00 0 ACORN-A Affluent
3 MAC000002 Std 2012-10-12 01:30:00 0 ACORN-A Affluent
4 MAC000002 Std 2012-10-12 02:00:00 0 ACORN-A Affluent
5 MAC000002 Std 2012-10-12 02:30:00 0 ACORN-A Affluent
6 MAC000002 Std 2012-10-12 03:00:00 0 ACORN-A Affluent
这是我一直在尝试使用的代码以及得到的结果。
test1 <- read.csv("test.csv", stringsAsFactors = F)
test1$DateTime <- ymd_hms(test1$DateTime)
test1$KWH.hh..per.half.hour. <- as.numeric(test1$KWH.hh..per.half.hour.)
test2 <- xts(test1$KWH.hh..per.half.hour., test1$DateTime)
head(test2)
period.apply(test2, endpoints(test2, "hours"), sum)
> period.apply(test2, endpoints(test2, "hours"), sum)
[,1]
2012-10-12 00:30:00 0.000
2012-10-12 01:30:00 0.000
2012-10-12 02:30:00 0.000
2012-10-12 03:30:00 0.000
2012-10-12 04:30:00 0.000
2012-10-12 05:30:00 0.000
2012-10-12 06:30:00 0.000
2012-10-12 07:30:00 0.000
2012-10-12 08:30:00 0.000
2012-10-12 09:30:00 0.000
2012-10-12 10:30:00 0.000
理想情况下,我需要一个与原始数据(test1)完全相同的数据集,其大小合计为每小时一次,而不是每小时一次。有人可以帮忙吗。
谢谢
答案 0 :(得分:2)
您需要创建一个分组列,然后按组求和。
# create grouped column
test1$grouped_time = lubridate::floor_date(test1$DateTime, unit = "hour")
# (use ceiling_date instead if you want to round the half hours up instead of down)
# sum by group
library(dplyr)
test2 = test1 %>%
group_by(grouped_time, LCLid, stdorToU, Acorn, Acorn_grouped) %>%
summarize(KWH.hh.per.hour = sum(KWH.hh..per.half.hour.))
Sum by Group R-FAQ上有许多dplyr
的替代方案,以备您需要更多选择。
请注意,这将为group_by()
中其他列的每个唯一组合求和。如果其中一些可以更改,例如stdorToU
或ACORN
的值可能从一个小时更改为下一个半小时,但您仍然希望合并行,则需要将该列移出{{ 1}}到group_by
中,并指定要保留的值,例如
summarize
答案 1 :(得分:0)
> head(sm_2013_tof)
# A tibble: 6 x 6
# Groups: grouped_time, LCLid, stdorToU, Acorn [6]
grouped_time LCLid stdorToU Acorn Acorn_grouped KWH.hh.per.hour
<dttm> <chr> <chr> <chr> <chr> <dbl>
1 2013-01-01 00:00:00 MAC000146 ToU ACORN-L Adversity 0.155
2 2013-01-01 00:00:00 MAC000147 ToU ACORN-F Comfortable 0.276
3 2013-01-01 00:00:00 MAC000158 ToU ACORN-H Comfortable 0.152
4 2013-01-01 00:00:00 MAC000165 ToU ACORN-E Affluent 0.401
5 2013-01-01 00:00:00 MAC000170 ToU ACORN-F Comfortable 0.64
6 2013-01-01 00:00:00 MAC000173 ToU ACORN-E Affluent 0.072
>
这是分组后现在的每小时数据。
如果我将其作为as.data.frame,您会看到00:00:00消失
sm_short_2013 <- as.data.frame(sm_2013_tof)
> head(sm_short_2013)
grouped_time LCLid stdorToU Acorn Acorn_grouped KWH.hh.per.hour
1 2013-01-01 MAC000146 ToU ACORN-L Adversity 0.155
2 2013-01-01 MAC000147 ToU ACORN-F Comfortable 0.276
3 2013-01-01 MAC000158 ToU ACORN-H Comfortable 0.152
4 2013-01-01 MAC000165 ToU ACORN-E Affluent 0.401
5 2013-01-01 MAC000170 ToU ACORN-F Comfortable 0.640
6 2013-01-01 MAC000173 ToU ACORN-E Affluent 0.072
> dput(droplevels(sm_short_2013[1:10, ]))
structure(list(grouped_time = structure(c(1356998400, 1356998400,
1356998400, 1356998400, 1356998400, 1356998400, 1356998400, 1356998400,
1356998400, 1356998400), class = c("POSIXct", "POSIXt"), tzone = "UTC"),
LCLid = c("MAC000146", "MAC000147", "MAC000158", "MAC000165",
"MAC000170", "MAC000173", "MAC000186", "MAC000187", "MAC000193",
"MAC000194"), stdorToU = c("ToU", "ToU", "ToU", "ToU", "ToU",
"ToU", "ToU", "ToU", "ToU", "ToU"), Acorn = c("ACORN-L",
"ACORN-F", "ACORN-H", "ACORN-E", "ACORN-F", "ACORN-E", "ACORN-E",
"ACORN-L", "ACORN-D", "ACORN-D"), Acorn_grouped = c("Adversity",
"Comfortable", "Comfortable", "Affluent", "Comfortable",
"Affluent", "Affluent", "Adversity", "Affluent", "Affluent"
), KWH.hh.per.hour = c(0.155, 0.276, 0.152, 0.401, 0.64,
0.072, 0.407, 0.554, 0.725, 0.158)), row.names = c(NA, 10L
), class = "data.frame")