R:向xts timeseries对象添加一个虚拟变量列

时间:2016-10-16 22:59:41

标签: r time-series xts dummy-variable

我有一个xts时间序列对象,由2015年的每分钟日内交易数据组成。我想添加一个虚拟变量,表示1为事件日,0为非关键日。

由于虚拟变量本身并不是一个时间序列,我可以将它添加到我的交易数据中吗?

我应该如何构建虚拟列?

如何将其添加到现有的xts中?

R的新手,请在答案中尽可能具体。谢谢!

1 个答案:

答案 0 :(得分:2)

xts基于zoo,动物园常见问题解答(问题4)中有关于不同数据类型的这一行:

  

“动物园”对象可以是(1)数字向量,(2)数字矩阵或   (3)一个因子但可能不包含数字向量和因子。

所以只要你的0和1是numeric而不是factor,你应该没问题。它不是一个非常有效的存储介质,但存储效率可能不是您的瓶颈。

一个例子:

timestamp <- seq.POSIXt(from=as.POSIXct("2016-10-12 09:00"), 
                    to=as.POSIXct("2016-10-13 09:00"), 
                    by="min")
dat <- rnorm(length(timestamp))
foo <- xts(dat,order.by=timestamp)

现在该指标变量:

#make this example reproducible:
set.seed(123)

dummy2 <- sample(c("event","non-event"), size=length(timestamp),
    replace=TRUE)
foo2 <- xts(dummy2, order.by=timestamp)
merged <- cbind(foo, foo2)

这会警告你:

In merge.xts(..., all = all, fill = fill, suffixes = suffixes) :
  NAs introduced by coercion

事实上:

summary(merged)
     Index                          ..1                ..2      
 Min.   :2016-10-12 09:00:00   Min.   :-3.38110   Min.   : NA   
 1st Qu.:2016-10-12 15:00:00   1st Qu.:-0.64010   1st Qu.: NA   
 Median :2016-10-12 21:00:00   Median : 0.04047   Median : NA   
 Mean   :2016-10-12 21:00:00   Mean   : 0.03025   Mean   :NaN   
 3rd Qu.:2016-10-13 03:00:00   3rd Qu.: 0.67461   3rd Qu.: NA   
 Max.   :2016-10-13 09:00:00   Max.   : 3.25034   Max.   : NA   
                                                  NA's   :1441  

但如果它是数字:

dummy3 <- sample(0:1, size=length(timestamp), replace=TRUE)
foo3 <- xts(dummy3, order.by=timestamp)
merged <- cbind(foo, foo3)

默默地回归(没有新闻是好消息)。我们来看看:

summary(merged)

         Index                          ..1                ..2        
 Min.   :2016-10-12 09:00:00   Min.   :-3.38110   Min.   :0.0000  
 1st Qu.:2016-10-12 15:00:00   1st Qu.:-0.64010   1st Qu.:0.0000  
 Median :2016-10-12 21:00:00   Median : 0.04047   Median :0.0000  
 Mean   :2016-10-12 21:00:00   Mean   : 0.03025   Mean   :0.4983  
 3rd Qu.:2016-10-13 03:00:00   3rd Qu.: 0.67461   3rd Qu.:1.0000  
 Max.   :2016-10-13 09:00:00   Max.   : 3.25034   Max.   :1.0000  

由于第2列是数字,我们不使用相等进行比较;如果您不直观,请查看R Inferno的第一圈(警告:PDF)。

summary(merged[merged[,2] > 0.5 ,1] )
summary(merged[merged[,2] < 0.5 ,1] )

这可能是一种更优雅的方式,但它会让你开始。

如果您计划与xts合作更加轻松,我建议xts的作者提出建议:

  

xts对象的核心是来自同一包的zoo对象   名称。 ......围绕动物园对象的大多数细节同样适用于   XTS。因为简单地复述优秀的入门动物园将是多余的   建议读者阅读,吸收和重新阅读该文档   最好地了解这门课程的力量。