这是我第一次接受结构,所以请耐心等待。我遇到的问题似乎是结构并没有正确识别我的时间序列,但我无法弄清楚为什么并且没有找到解决这个问题的董事会的答案。这是一个可重复的例子:
require(strucchange)
# time series
nmreprosuccess <- c(0,0.50,NA,0.,NA,0.5,NA,0.50,0.375,0.53,0.846,0.44,1.0,0.285,
0.75,1,0.4,0.916,1,0.769,0.357)
dat.ts <- ts(nmreprosuccess, frequency=1, start=c(1996,1))
str(dat.ts)
1996年至2016年的时间序列[1:21]:0 0.5 NA 0 NA 0.5 NA 0.5 0.375 0.53 ...
对我而言,这意味着时间序列看起来可以正常使用。
# obtain breakpoints
bp.NMSuccess <- breakpoints(dat.ts~1)
summary(bp.NMSuccess)
给出了:
Optimal (m+1)-segment partition:
Call:
breakpoints.formula(formula = dat.ts ~ 1)
Breakpoints at observation number:
m = 1 6
m = 2 3 7
m = 3 3 14 16
m = 4 3 7 14 16
m = 5 3 7 10 14 16
m = 6 3 7 10 12 14 16
m = 7 3 5 7 10 12 14 16
Corresponding to breakdates:
m = 1 0.333333333333333
m = 2 0.166666666666667 0.388888888888889
m = 3 0.166666666666667
m = 4 0.166666666666667 0.388888888888889
m = 5 0.166666666666667 0.388888888888889 0.555555555555556
m = 6 0.166666666666667 0.388888888888889 0.555555555555556 0.666666666666667
m = 7 0.166666666666667 0.277777777777778 0.388888888888889 0.555555555555556 0.666666666666667
m = 1
m = 2
m = 3 0.777777777777778 0.888888888888889
m = 4 0.777777777777778 0.888888888888889
m = 5 0.777777777777778 0.888888888888889
m = 6 0.777777777777778 0.888888888888889
m = 7 0.777777777777778 0.888888888888889
Fit:
m 0 1 2 3 4 5 6 7
RSS 1.6986 1.1253 0.9733 0.8984 0.7984 0.7581 0.7248 0.7226
BIC 14.3728 12.7421 15.9099 20.2490 23.9062 28.7555 33.7276 39.4522
这是我开始遇到问题的地方。它没有报告实际的断点,而是报告数字,这使得无法将断行绘制到图表上,因为它们不是在断裂处(2002年)而是在0.333处。
plot.ts(dat.ts, main="Natural Mating")
lines(fitted(bp.NMSuccess, breaks = 1), col = 4, lwd = 1.5)
此图表中没有显示任何内容(我认为因为图表的比例非常小)。
此外,当我尝试可能解决此问题的修复时,
fm1 <- lm(dat.ts ~ breakfactor(bp.NMSuccess, breaks = 1))
我明白了:
Error in model.frame.default(formula = dat.ts ~ breakfactor(bp.NMSuccess, :
variable lengths differ (found for 'breakfactor(bp.NMSuccess, breaks = 1)')
由于数据中的NA值,我得到错误,因此dat.ts
的长度为21,breakfactor(bp.NMSuccess, breaks = 1)
的长度为18(缺少3个NAs)。
有什么建议吗?
答案 0 :(得分:3)
问题出现是因为breakpoints()
目前只能(a)通过省略它们来处理NA
,以及(b)通过ts
类处理时间/日期。这会产生冲突,因为当您从NA
中省略内部ts
时,它会丢失其ts
属性,因此breakpoints()
无法推断出正确的时间。
围绕这种情况的“明显”方法是使用可以应对此问题的时间序列类,即zoo
。但是,我从未完全将zoo
支持完全整合到breakpoints()
中,因为它可能会破坏当前的一些行为。
长话短说:目前你最好的选择就是自己记录时间,不要指望breakpoints()
为你做这件事。额外的工作并不是那么庞大。首先,我们使用响应和时间向量创建时间序列,并省略NA
s:
d <- na.omit(data.frame(success = nmreprosuccess, time = 1996:2016))
d
## success time
## 1 0.000 1996
## 2 0.500 1997
## 4 0.000 1999
## 6 0.500 2001
## 8 0.500 2003
## 9 0.375 2004
## 10 0.530 2005
## 11 0.846 2006
## 12 0.440 2007
## 13 1.000 2008
## 14 0.285 2009
## 15 0.750 2010
## 16 1.000 2011
## 17 0.400 2012
## 18 0.916 2013
## 19 1.000 2014
## 20 0.769 2015
## 21 0.357 2016
然后我们可以估计断点,然后从观察的“数量”转换回时间尺度。请注意,我在这里明确设置了最小段大小h
,因为对于这个短序列,默认值15%可能有点小。 4仍然很小,但可能足以估算一个常数均值。
bp <- breakpoints(success ~ 1, data = d, h = 4)
bp
## Optimal 2-segment partition:
##
## Call:
## breakpoints.formula(formula = success ~ 1, h = 4, data = d)
##
## Breakpoints at observation number:
## 6
##
## Corresponding to breakdates:
## 0.3333333
我们忽略1/3观测值的中断“日期”,但只是简单地映射回原始时间刻度:
d$time[bp$breakpoints]
## [1] 2004
为了重新估计具有格式良好的因子水平的模型,我们可以这样做:
lab <- c(
paste(d$time[c(1, bp$breakpoints)], collapse = "-"),
paste(d$time[c(bp$breakpoints + 1, nrow(d))], collapse = "-")
)
d$seg <- breakfactor(bp, labels = lab)
lm(success ~ 0 + seg, data = d)
## Call:
## lm(formula = success ~ 0 + seg, data = d)
##
## Coefficients:
## seg1996-2004 seg2005-2016
## 0.3125 0.6911
或可视化:
plot(success ~ time, data = d, type = "b")
lines(fitted(bp) ~ time, data = d, col = 4, lwd = 2)
abline(v = d$time[bp$breakpoints], lty = 2)
最后一句话:对于这样的短时间序列,只需要简单的平均移位,人们也可以考虑条件推理(也就是置换测试),而不是strucchange
中采用的渐近推理。 coin
包完全为此目的提供maxstat_test()
函数(=测试平均值中单个移位的短序列)。
library("coin")
maxstat_test(success ~ time, data = d, dist = approximate(99999))
## Approximative Generalized Maximally Selected Statistics
##
## data: success by time
## maxT = 2.3953, p-value = 0.09382
## alternative hypothesis: two.sided
## sample estimates:
## "best" cutpoint: <= 2004
这会找到相同的断点并提供置换测试p值。但是,如果一个人拥有更多数据并需要多个断点和/或更多回归系数,则需要strucchange
。