我以10分钟的速率采样时间序列数据。我希望按小时划分它,但令我惊讶的是split.xts
并没有产生预期的结果。使用的步骤是:
library(xts)
set.seed(123)
Sys.setenv(TZ="Asia/Kolkata")
timeind <- seq(as.POSIXct("2017-01-20 00:00:00 IST"),
as.POSIXct("2017-01-20 23:59:59 IST"),by="10 min") #for indexing
df <- xts(runif(length(timeind),30,50),timeind) #xts data frame
split(df,"hours",k=1)
输出是:
[[1]]
[,1]
2017-01-20 00:00:00 31.24343
2017-01-20 00:10:00 32.57921
2017-01-20 00:20:00 40.17684
[[2]]
[,1]
2017-01-20 00:30:00 41.89185
2017-01-20 00:40:00 30.93997
2017-01-20 00:50:00 31.76651
2017-01-20 01:00:00 49.07364
2017-01-20 01:10:00 34.79113
2017-01-20 01:20:00 48.13881
预期输出为:
[[1]]
[,1]
2017-01-20 00:00:00 31.24343
2017-01-20 00:10:00 32.57921
2017-01-20 00:20:00 40.17684
2017-01-20 00:30:00 41.89185
2017-01-20 00:40:00 30.93997
2017-01-20 00:50:00 31.76651
[[2]]
2017-01-20 01:00:00 49.07364
2017-01-20 01:10:00 34.79113
2017-01-20 01:20:00 48.13881
...
为什么split.xts
无法正常工作?
答案 0 :(得分:2)
这是一个known bug。如果索引时区恰好是与UTC不是一个小时偏移的时区,则endpoints
无法正常工作(因为其计算基于UTC)。
例如,Asia / Kolkata是UTC + 0530,所以endpoints
在半小时内对齐。
可能的解决方法是在调用split
之前向索引添加30分钟,然后从结果的每个元素中减去30分钟。虽然这可能会引起夏令时的问题,但如果时区可以观察到一个问题。
df_adjusted <- df
.index(df_adjusted) <- .index(df_adjusted) - 60 * 30
by_hour <- lapply(split(df_adjusted, "hours"),
function(x) { .index(x) <- .index(x) + 60 * 30; x })