我有一个xts时间序列对象,由2015年的每分钟日内交易数据组成。我想添加一个虚拟变量,表示1为事件日,0为非关键日。
由于虚拟变量本身并不是一个时间序列,我可以将它添加到我的交易数据中吗?
我应该如何构建虚拟列?
如何将其添加到现有的xts中?
R的新手,请在答案中尽可能具体。谢谢!
答案 0 :(得分:2)
xts
基于zoo
,动物园常见问题解答(问题4)中有关于不同数据类型的这一行:
“动物园”对象可以是(1)数字向量,(2)数字矩阵或 (3)一个因子但可能不包含数字向量和因子。
所以只要你的0和1是numeric
而不是factor
,你应该没问题。它不是一个非常有效的存储介质,但存储效率可能不是您的瓶颈。
一个例子:
timestamp <- seq.POSIXt(from=as.POSIXct("2016-10-12 09:00"),
to=as.POSIXct("2016-10-13 09:00"),
by="min")
dat <- rnorm(length(timestamp))
foo <- xts(dat,order.by=timestamp)
现在该指标变量:
#make this example reproducible:
set.seed(123)
dummy2 <- sample(c("event","non-event"), size=length(timestamp),
replace=TRUE)
foo2 <- xts(dummy2, order.by=timestamp)
merged <- cbind(foo, foo2)
这会警告你:
In merge.xts(..., all = all, fill = fill, suffixes = suffixes) :
NAs introduced by coercion
事实上:
summary(merged)
Index ..1 ..2
Min. :2016-10-12 09:00:00 Min. :-3.38110 Min. : NA
1st Qu.:2016-10-12 15:00:00 1st Qu.:-0.64010 1st Qu.: NA
Median :2016-10-12 21:00:00 Median : 0.04047 Median : NA
Mean :2016-10-12 21:00:00 Mean : 0.03025 Mean :NaN
3rd Qu.:2016-10-13 03:00:00 3rd Qu.: 0.67461 3rd Qu.: NA
Max. :2016-10-13 09:00:00 Max. : 3.25034 Max. : NA
NA's :1441
但如果它是数字:
dummy3 <- sample(0:1, size=length(timestamp), replace=TRUE)
foo3 <- xts(dummy3, order.by=timestamp)
merged <- cbind(foo, foo3)
默默地回归(没有新闻是好消息)。我们来看看:
summary(merged)
Index ..1 ..2
Min. :2016-10-12 09:00:00 Min. :-3.38110 Min. :0.0000
1st Qu.:2016-10-12 15:00:00 1st Qu.:-0.64010 1st Qu.:0.0000
Median :2016-10-12 21:00:00 Median : 0.04047 Median :0.0000
Mean :2016-10-12 21:00:00 Mean : 0.03025 Mean :0.4983
3rd Qu.:2016-10-13 03:00:00 3rd Qu.: 0.67461 3rd Qu.:1.0000
Max. :2016-10-13 09:00:00 Max. : 3.25034 Max. :1.0000
由于第2列是数字,我们不使用相等进行比较;如果您不直观,请查看R Inferno的第一圈(警告:PDF)。
summary(merged[merged[,2] > 0.5 ,1] )
summary(merged[merged[,2] < 0.5 ,1] )
这可能是一种更优雅的方式,但它会让你开始。
如果您计划与xts
合作更加轻松,我建议xts
的作者提出建议:
xts对象的核心是来自同一包的zoo对象 名称。 ......围绕动物园对象的大多数细节同样适用于 XTS。因为简单地复述优秀的入门动物园将是多余的 建议读者阅读,吸收和重新阅读该文档 最好地了解这门课程的力量。