我有一段时间内股票价格的逐笔报价数据集,我想将不规则间隔的高频数据转换为不规则间隔的低频时间序列,以便以后进行数据分析。我在这里使用R。
数据以1秒的频率跟踪每笔交易/报价的特定股票的价值。因此,例如,在日期时间2009-07-16 13:30:01
(参考下面的数据),此秒内有两个引号分别为145.88
和145.89
。
Date Value
2009-07-16T13:30:01.000 145.88
2009-07-16T13:30:01.000 145.89
2009-07-16T13:30:02.000 145.57
2009-07-16T13:30:02.000 145.75
2009-07-16T13:30:03.000 145.65
2009-07-16T13:30:03.000 145.84
2009-07-16T13:30:03.000 145.776
2009-07-16T13:30:04.000 145.74
2009-07-16T13:30:04.000 145.68
2009-07-16T13:30:04.000 145.68
2009-07-16T13:30:04.000 145.76
2009-07-16T13:30:04.000 145.68
.
.
.
首先,我想将数据转换为规则的时间序列,其中仅显示每秒的库存最新值:
Date Value
2009-07-16T13:30:01.000 145.89
2009-07-16T13:30:02.000 145.75
2009-07-16T13:30:03.000 145.776
2009-07-16T13:30:04.000 145.68
2009-07-16T13:30:05.000 145.76
2009-07-16T13:30:06.000 145.85
2009-07-16T13:30:07.000 145.8
2009-07-16T13:30:08.000 145.62
2009-07-16T13:30:09.000 145.85
2009-07-16T13:30:10.000 145.64
.
.
.
但最重要的是,我想将数据转换为规则的间隔且频率较低的时间序列,例如1分钟,其中显示了每分钟库存的最新值:
Date Value
2009-07-16T13:31:00.000 145.89
2009-07-16T13:32:00.000 145.53
2009-07-16T13:33:00.000 145.68
2009-07-16T13:34:00.000 145.14
2009-07-16T13:35:00.000 145.7
2009-07-16T13:36:00.000 145.83
2009-07-16T13:37:00.000 145.88
2009-07-16T13:38:00.000 145.62
2009-07-16T13:39.00.000 145.84
2009-07-16T13:40:00.000 145.63
.
.
.
我尝试使用aggregatets()
包中的highfrequency
,但没有返回我想要的结果。即使我已按照代码中的说明指定了1分钟,日期时间也不是等间隔且频率较低的。
library(lubridate)
library(dplyr)
data$Date <- ymd_hms(data$Date)
library(xts)
data_xts <- as.xts(data[,"Value"], order.by=data[,"Date"])
library(highfrequency)
data_new <- aggregatets(data_xts, on="minutes", k=1)
如何在R中执行此操作?
答案 0 :(得分:2)
先做汇总。
这是你的。
> head(df1, 10)
date value
1 2019-02-02T13:59:38.000 145.8922
2 2019-02-02T13:59:38.000 145.8820
3 2019-02-02T13:59:38.000 145.7998
4 2019-02-02T13:59:39.000 145.8122
5 2019-02-02T13:59:39.000 145.7355
6 2019-02-02T13:59:39.000 145.7822
7 2019-02-02T13:59:40.000 145.7078
8 2019-02-02T13:59:41.000 145.7133
9 2019-02-02T13:59:41.000 145.6906
10 2019-02-02T13:59:41.000 145.8749
现在,我们使用aggregate()
来获取每秒的最新值(即每秒的最高行号)。
df1.sec <- aggregate(value ~ date, df1, FUN=function(x) x[length(x)])
> head(df1.sec, 10)
date value
1 2019-02-02T13:59:38.000 145.7998
2 2019-02-02T13:59:39.000 145.7822
3 2019-02-02T13:59:40.000 145.7078
4 2019-02-02T13:59:41.000 145.8749
5 2019-02-02T13:59:42.000 145.7630
6 2019-02-02T13:59:43.000 145.7921
7 2019-02-02T13:59:44.000 145.6459
8 2019-02-02T13:59:45.000 145.7680
9 2019-02-02T13:59:46.000 145.7966
10 2019-02-02T13:59:47.000 145.8542
然后我们做通过切除与他秒分钟同一substr()
。
df1.min <- aggregate(value ~ substr(date, 1, 16), df1.sec, FUN=function(x) x[length(x)])
> head(df1.min, 10)
substr(date, 1, 16) value
1 2019-02-02T13:59 145.8073
2 2019-02-02T14:00 145.6909
3 2019-02-02T14:01 145.8617
4 2019-02-02T14:02 145.7452
5 2019-02-02T14:03 145.7080
6 2019-02-02T14:04 145.8530
7 2019-02-02T14:05 145.9772
8 2019-02-02T14:06 145.8247
9 2019-02-02T14:07 145.9125
10 2019-02-02T14:08 145.6915
(注意:如果重要的话,为了防止出现奇怪的列名"substr(date, 1, 16)"
,我们也可以这样做:)
# with(df1.sec, aggregate(list(value=value), by=list(date=substr(date, 1, 16)),
# FUN=function(x) x[length(x)]))
# # date value
# # 1 2019-02-03T09:43 146.0894
# # 2 2019-02-03T09:44 145.7456
# # ...
xts()
例如POSIXct
格式,所以我们将它转换。
df1.min$date.POSIX <- as.POSIXct(df1.min$`substr(date, 1, 16)`, format="%FT%H:%M")
现在我们可以在干净数据上设置xts
对象。
library(xts)
data_xts <- xts(df1.min$value, order.by=df1.min$date.POSIX)
结果
> data_xts
[,1]
2019-02-02 13:59:00 145.8073
2019-02-02 14:00:00 145.6909
2019-02-02 14:01:00 145.8617
2019-02-02 14:02:00 145.7452
2019-02-02 14:03:00 145.7080
2019-02-02 14:04:00 145.8530
2019-02-02 14:05:00 145.9772
2019-02-02 14:06:00 145.8247
2019-02-02 14:07:00 145.9125
2019-02-02 14:08:00 145.6915
玩具数据
set.seed(42)
date <- as.POSIXct(unlist(sapply(as.matrix(1:1000), function(x)
rep(x, sample(1:3, 1))))[1:1000], origin=Sys.time())
df1 <- data.frame(date=date,
value=rnorm(1000, 145.8, 0.08962))
df1$date <- strftime(df1$date, format="%FT%H:%M:%S.000")