strucchange未报告breakdates

时间:2017-04-05 18:04:09

标签: r time-series

这是我第一次接受结构,所以请耐心等待。我遇到的问题似乎是结构并没有正确识别我的时间序列,但我无法弄清楚为什么并且没有找到解决这个问题的董事会的答案。这是一个可重复的例子:

require(strucchange)
# time series
nmreprosuccess <- c(0,0.50,NA,0.,NA,0.5,NA,0.50,0.375,0.53,0.846,0.44,1.0,0.285, 
                    0.75,1,0.4,0.916,1,0.769,0.357)
dat.ts <- ts(nmreprosuccess, frequency=1, start=c(1996,1))
str(dat.ts)

1996年至2016年的时间序列[1:21]:0 0.5 NA 0 NA 0.5 NA 0.5 0.375 0.53 ...

对我而言,这意味着时间序列看起来可以正常使用。

# obtain breakpoints
bp.NMSuccess <- breakpoints(dat.ts~1)
summary(bp.NMSuccess)

给出了:

Optimal (m+1)-segment partition: 

 Call:
 breakpoints.formula(formula = dat.ts ~ 1)

 Breakpoints at observation number:

 m = 1     6              
 m = 2   3   7            
 m = 3   3           14 16
 m = 4   3   7       14 16
 m = 5   3   7 10    14 16
 m = 6   3   7 10 12 14 16
 m = 7   3 5 7 10 12 14 16

 Corresponding to breakdates:

 m = 1                     0.333333333333333                                                      
 m = 2   0.166666666666667                   0.388888888888889                                    
 m = 3   0.166666666666667                                                                        
 m = 4   0.166666666666667                   0.388888888888889                                    
 m = 5   0.166666666666667                   0.388888888888889 0.555555555555556                  
 m = 6   0.166666666666667                   0.388888888888889 0.555555555555556 0.666666666666667
 m = 7   0.166666666666667 0.277777777777778 0.388888888888889 0.555555555555556 0.666666666666667

 m = 1                                      
 m = 2                                      
 m = 3   0.777777777777778 0.888888888888889
 m = 4   0.777777777777778 0.888888888888889
 m = 5   0.777777777777778 0.888888888888889
 m = 6   0.777777777777778 0.888888888888889
 m = 7   0.777777777777778 0.888888888888889

 Fit:

 m   0       1       2       3       4       5       6       7      
 RSS  1.6986  1.1253  0.9733  0.8984  0.7984  0.7581  0.7248  0.7226
 BIC 14.3728 12.7421 15.9099 20.2490 23.9062 28.7555 33.7276 39.4522

这是我开始遇到问题的地方。它没有报告实际的断点,而是报告数字,这使得无法将断行绘制到图表上,因为它们不是在断裂处(2002年)而是在0.333处。

plot.ts(dat.ts, main="Natural Mating")
lines(fitted(bp.NMSuccess, breaks = 1), col = 4, lwd = 1.5)

此图表中没有显示任何内容(我认为因为图表的比例非常小)。

此外,当我尝试可能解决此问题的修复时,

fm1 <- lm(dat.ts ~ breakfactor(bp.NMSuccess, breaks = 1))

我明白了:

Error in model.frame.default(formula = dat.ts ~ breakfactor(bp.NMSuccess,  : 
  variable lengths differ (found for 'breakfactor(bp.NMSuccess, breaks = 1)')

由于数据中的NA值,我得到错误,因此dat.ts的长度为21,breakfactor(bp.NMSuccess, breaks = 1)的长度为18(缺少3个NAs)。

有什么建议吗?

1 个答案:

答案 0 :(得分:3)

问题出现是因为breakpoints()目前只能(a)通过省略它们来处理NA,以及(b)通过ts类处理时间/日期。这会产生冲突,因为当您从NA中省略内部ts时,它会丢失其ts属性,因此breakpoints()无法推断出正确的时间。

围绕这种情况的“明显”方法是使用可以应对此问题的时间序列类,即zoo。但是,我从未完全将zoo支持完全整合到breakpoints()中,因为它可能会破坏当前的一些行为。

长话短说:目前你最好的选择就是自己记录时间,不要指望breakpoints()为你做这件事。额外的工作并不是那么庞大。首先,我们使用响应和时间向量创建时间序列,并省略NA s:

d <- na.omit(data.frame(success = nmreprosuccess, time = 1996:2016))
d
##    success time
## 1    0.000 1996
## 2    0.500 1997
## 4    0.000 1999
## 6    0.500 2001
## 8    0.500 2003
## 9    0.375 2004
## 10   0.530 2005
## 11   0.846 2006
## 12   0.440 2007
## 13   1.000 2008
## 14   0.285 2009
## 15   0.750 2010
## 16   1.000 2011
## 17   0.400 2012
## 18   0.916 2013
## 19   1.000 2014
## 20   0.769 2015
## 21   0.357 2016

然后我们可以估计断点,然后从观察的“数量”转换回时间尺度。请注意,我在这里明确设置了最小段大小h,因为对于这个短序列,默认值15%可能有点小。 4仍然很小,但可能足以估算一个常数均值。

bp <- breakpoints(success ~ 1, data = d, h = 4)
bp
##   Optimal 2-segment partition: 
## 
## Call:
## breakpoints.formula(formula = success ~ 1, h = 4, data = d)
## 
## Breakpoints at observation number:
## 6 
## 
## Corresponding to breakdates:
## 0.3333333 

我们忽略1/3观测值的中断“日期”,但只是简单地映射回原始时间刻度:

d$time[bp$breakpoints]
## [1] 2004

为了重新估计具有格式良好的因子水平的模型,我们可以这样做:

lab <- c(
  paste(d$time[c(1, bp$breakpoints)], collapse = "-"),
  paste(d$time[c(bp$breakpoints + 1, nrow(d))], collapse = "-")
)
d$seg <- breakfactor(bp, labels = lab)
lm(success ~ 0 + seg, data = d)
## Call:
## lm(formula = success ~ 0 + seg, data = d)
## 
## Coefficients:
## seg1996-2004  seg2005-2016  
##       0.3125        0.6911  

或可视化:

plot(success ~ time, data = d, type = "b")
lines(fitted(bp) ~ time, data = d, col = 4, lwd = 2)
abline(v = d$time[bp$breakpoints], lty = 2)

success series with breaks

最后一句话:对于这样的短时间序列,只需要简单的平均移位,人们也可以考虑条件推理(也就是置换测试),而不是strucchange中采用的渐近推理。 coin包完全为此目的提供maxstat_test()函数(=测试平均值中单个移位的短序列)。

library("coin")
maxstat_test(success ~ time, data = d, dist = approximate(99999))
##  Approximative Generalized Maximally Selected Statistics
## 
## data:  success by time
## maxT = 2.3953, p-value = 0.09382
## alternative hypothesis: two.sided
## sample estimates:
##   "best" cutpoint: <= 2004

这会找到相同的断点并提供置换测试p值。但是,如果一个人拥有更多数据并需要多个断点和/或更多回归系数,则需要strucchange