使用GTS进行分层数据预测

时间:2015-08-31 21:36:44

标签: r time-series hierarchical-data forecasting

使用GTS指定两个层次结构组时遇到错误。错误是:

  

colnames<-中的错误(*tmp*,值= unlist(标签[级别])):
  长度&#39; dimnames&#39; [2]不等于数组范围

我已使用以下代码重新创建了该问题。在此示例中,有两个层次结构州/县和行业/子行业/产品。在这个例子中,State / County是常量 - 这在我的实际数据集中可能是也可能不是。

y3 <- ts(matrix(rnorm(25),ncol=5,nrow=5))
blnames3 <- paste(rep("CA",5), # State
              rep("AL",5), # County
              rep("O",5), # Industry
              c("P","Q","Q","P","R"), # Sub-industry
              c("514","807","514","807","807"), # product
              sep="")
colnames(y3) <- blnames3
head(y3)

gy3 <- gts(y3, characters=list(c(2,2),c(1,1,3)))
fc3 <- forecast(gy3, h = 6, method = "comb", fmethod="ets")

如果我使用不同的方法(例如bu),则预测函数会成功返回,但任何后续操作(例如allt)都会失败并出现相同的错误。

fc3 <- forecast(gy3, h = 6, method = "bu", fmethod="ets")
allts(fc3)

2 个答案:

答案 0 :(得分:3)

我曾多次使用过gts,但并未声称知道有关该软件包的所有信息。但希望这会有所帮助。

我认为发生的事情是您的gts对象正在指定数据中不存在的层次结构。列表中的第一个向量是c(2,2),表示州/县是层次结构级别。但是,您的数据中的所有州和县都是相同的,因此这实际上不是一个层次结构。

然后您的第二个层次结构由c(1,1,3)组成,但行业始终保持不变,只剩下子行业产品改变。

总之,这看起来不像是一个分层系列。我注意到gy3中的标签有很多NA

gy3$labels
$G1
[1] "G1/CA"

$<NA>
[1] "G1/CAAL"

$<NA>
[1] "G1/O"

$<NA>
[1] "G1/OP" "G1/OQ" "G1/OR"

$<NA>
[1] "G1/OP514" "G1/OQ807" "G1/OQ514" "G1/OP807" "G1/OR807"

$<NA>
[1] "G1/CAO"

$<NA>
[1] "G1/CAOP" "G1/CAOQ" "G1/CAOR"

$<NA>
[1] "G1/CAOP514" "G1/CAOQ807" "G1/CAOQ514" "G1/CAOP807" "G1/CAOR807"

$<NA>
[1] "G1/CAALO"

$<NA>
[1] "G1/CAALOP" "G1/CAALOQ" "G1/CAALOR"

跟踪代码,这似乎会导致aggts

出现问题
aggts(gy3)
Error in `colnames<-`(`*tmp*`, value = unlist(labels[levels])) : 
length of 'dimnames' [2] not equal to array extent
指定aggts方法时会调用

comb,这需要一个分层系列。 bu不会失败,因为它是自下而上的,不需要层次结构。

长话短说,纠正代码的一种方法是指定一个c(6, 3)的向量,包含一个组中的子行业和另一个组中的产品。

gy3 <- gts(y3, characters=c(6, 3))
fc3 <- forecast(gy3, h = 6, method = "comb", fmethod="ets")  
fc3
Grouped Time Series 
4 Levels 
Number of groups at each level: 1 3 2 5 
Total number of series: 11 
Number of observations in each historical series: 5 
Number of forecasts per series: 6 
Top level series of forecasts: 
Time Series:
Start = 6 
End = 11 
Frequency = 1 
[1] -0.5835628 -0.5835628 -0.5835628 -0.5835628 -0.5835628 -0.5835628

这也有效

fc3 <- forecast(gy3, h = 6, method = "bu", fmethod="ets")
allts(fc3)
Time Series:
Start = 6 
End = 11 
Frequency = 1 
        Total G1/CAALOP  G1/CAALOQ G1/CAALOR      G2/514     G2/807 CAALOP514  CAALOQ807  CAALOQ514  CAALOP807 CAALOR807
 6 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247
 7 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247
 8 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247
 9 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247
10 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247
11 -0.6227325 0.0344344 -0.8919916 0.2348247 -0.02331766 -0.5994149 0.2459208 -0.6227531 -0.2692384 -0.2114864 0.2348247

答案 1 :(得分:2)

示例中的blnames3指定错误。只有一个州和一个县被赋予列名,而这些列名称无法形成层次结构。您需要提供至少两个州和两个县来构建分组时间序列。

我收集你已经看到Rob's post如何在characters函数中指定gts()参数。现在,我基于Rob的例子,将另一个名为“Product”的级别添加到Industry / Sub-industry层次结构中。

以下代码表明,有两个州各有两个县,两个行业分别由三个和两个子行业组成。此外,每个子行业都生产四种产品。

y3 <- ts(matrix(rnorm(300),ncol=60,nrow=5))
blnames3 <- paste0(rep(c("CA", "NY"), each = 30), # State
               rep(c("AL", "LA", "CL", "ES"), each = 15), # County
               rep(c("O", "O", "O", "C", "C"), 12), # Industry
               rep(c("p", "q", "r", "p", "q"), 12),  # Sub-industry
               rep(504:507, 15)) # Product
colnames(y3) <- blnames3

gy3 <- gts(y3, characters=list(c(2,2),c(1,1,3)))
fc3 <- forecast(gy3, h = 6, method = "comb", fmethod="ets")
aggts(fc3)

希望它有所帮助。