我正在尝试为不规则的时间序列数据集提取有趣的统计数据,但很难找到适合该工作的正确工具。可以很容易地找到用于操作定期采样时间序列或基于索引的系列的工具,尽管我对我正在尝试解决的问题没有太多运气。
首先,可重复的数据集:
library(zoo)
set.seed(0)
nSamples <- 5000
vecDT <- rexp(nSamples, 3)
vecTimes <- cumsum(c(0,vecDT))
vecDrift <- c(0, rnorm(nSamples, mean = 1/nSamples, sd = 0.01))
vecVals <- cumsum(vecDrift)
vecZ <- zoo(vecVals, order.by = vecTimes)
rm(vecDT, vecDrift)
假设时间以秒为单位。 vecZ
系列中有近1700秒(仅为30分钟),在此期间有5001个条目。 (注意:我尝试使用xts
,但xts
似乎需要日期信息,而且当不相关时,我宁愿不使用特定日期。)
我的目标如下:
在每个点前3分钟和3分钟后确定值的索引。由于时间是连续的,我怀疑任何两点相距3分钟。我想要找到的是在给定点之前至少3分钟,至少3分钟之后的点,即类似下面的点(伪代码):
backIX(t, vecZ, tDelta) = min{ix in length(vecZ) : t - time(ix) < tDelta}
forwardIX(t, vecZ, tDelta) = min{ix in length(vecZ) : time(ix) - t > tDelta}
所以,3分钟,tDelta = 180
。如果是t=2500
,那么forwardIX()
的结果将是3012(即时间(vecZ)[2500]是860.1462,时间(vecZ)[3012]是1040.403,或者仅仅超过180秒), backwardIX()
的输出将是2020(对应于时间680.7162秒)。
理想情况下,我想使用一个不需要t
的函数,因为这将需要length(vecZ)
调用该函数,这忽略了可以计算滑动窗口的时间这一事实更有效率。
将函数应用于滚动时间窗口中的所有值。我见过rollapply
,它采用固定的窗口大小(即固定数量的索引,但不是固定的时间窗口)。我可以用一个循环(或foreach
;-))来解决这个问题,这个循环是根据索引t
计算的,但我想知道是否已经实现了一些简单的函数,例如:用于计算给定时间范围内所有值的平均值的函数。由于这可以通过在窗口上滑动的简单摘要统计来有效地完成,因此它应该比在多次访问所有数据以计算每个统计数据的函数更便宜。一些相当自然的函数:mean,min,max和median。
即使窗口没有随时间变化,改变窗口大小的能力也足够了,我可以使用上面问题的结果找到窗口大小。但是,这仍然需要额外的计算,因此能够指定基于时间的间隔似乎更有效。
R中的软件包是否有助于在时间窗口中对数据进行操作,或者我运气不好而且我应该编写自己的函数?
注1:This question寻求做类似的事情,除了不相交的间隔,而不是滚动时间窗口,例如我可以调整这个来对每个连续的3分钟区块进行分析,但我没有看到一种方法来适应这种情况,每隔3分钟进行一次。
注2:我发现从zoo
对象切换到数字向量(对于时间)已经大大加快了第一个目标的范围寻找/窗口端点识别问题。这仍然是一个天真的算法,但值得一提的是,使用zoo
对象可能不适合天真的方法。
答案 0 :(得分:1)
这是我的建议,但我不确定它是否完全回答了你的问题
#Picking up where your code left off
library(xts)
library(TTR)
x <- .xts(vecZ, vecTimes)
xx <- na.locf(cbind(xts(, seq.POSIXt(from=start(x), to=end(x), by='sec')), x))
x$means <- runMean(xx, n=180)
out <- x[!is.na(x[, 1]), ]
tail(out)
x means
1969-12-31 18:28:17.376141 0.2053531 0.1325938
1969-12-31 18:28:17.379140 0.2101565 0.1329065
1969-12-31 18:28:17.619840 0.2139770 0.1332403
1969-12-31 18:28:17.762765 0.2072574 0.1335843
1969-12-31 18:28:17.866473 0.2065790 0.1339608
1969-12-31 18:28:17.924270 0.2114755 0.1344264
答案 1 :(得分:0)
从v1.9.8版本开始(2016年11月25日,CRAN),data.table获得了以非等额联接聚合的功能,可用于应用滚动功能在不规则时间序列的滑动时间窗口上。
为演示和验证,使用了较小的数据集。
library(data.table) # development version 1.11.9 used
# create small dataset
set.seed(0)
nSamples <- 10
vecDT <- rexp(nSamples, 3)
vecTimes <- cumsum(c(0,vecDT))
vecVals <- 0:nSamples
vec <- data.table(vecTimes, vecVals)
vec
vecTimes vecVals 1: 0.00000000 0 2: 0.06134553 1 3: 0.10991444 2 4: 0.15651286 3 5: 0.30186907 4 6: 1.26685858 5 7: 1.67671260 6 8: 1.85660688 7 9: 2.17546271 8 10: 2.22447804 9 11: 2.68805641 10
# define window size in seconds
win_sec = 0.3
# aggregate in sliding window by a non-equi join
vec[.(t = vecTimes, upper = vecTimes + win_sec, lower = vecTimes - win_sec),
on = .(vecTimes < upper, vecTimes > lower),
.(t, .N, sliding_mean = mean(vecVals)), by = .EACHI]
vecTimes vecTimes t N sliding_mean 1: 0.3000000 -0.300000000 0.00000000 4 1.5 2: 0.3613455 -0.238654473 0.06134553 5 2.0 3: 0.4099144 -0.190085564 0.10991444 5 2.0 4: 0.4565129 -0.143487143 0.15651286 5 2.0 5: 0.6018691 0.001869065 0.30186907 4 2.5 6: 1.5668586 0.966858578 1.26685858 1 5.0 7: 1.9767126 1.376712596 1.67671260 2 6.5 8: 2.1566069 1.556606875 1.85660688 2 6.5 9: 2.4754627 1.875462707 2.17546271 2 8.5 10: 2.5244780 1.924478037 2.22447804 2 8.5 11: 2.9880564 2.388056413 2.68805641 1 10.0
前两列分别显示时间间隔的上限和下限,t
是原始的vecTimes
,N
表示包含在时间间隔中的数据点的数量。计算滑动平均值。