测试哪些因素决定建模性能

时间:2019-08-02 20:21:31

标签: r performance statistics

我正在分析一系列预测方法(种群动态模型)的性能(估计误差)。 为此,我从2年(性能可能取决于当时物种的运行情况)开始,将每种方法应用于一系列种群动态(模型适合不同物种)。 这将提供类似于以下的输出:

df1 <- expand.grid(species=letters[1:3],
                       time=1:2,
                       method=LETTERS[11:13])
df1$error <- rnorm(nrow(df2),0,10)

    species time method error
1        a    1      K   3.93566373
2        b    1      K -26.95329369
3        c    1      K   3.68377329
4        a    2      K -21.68417747
5        b    2      K   6.59804377
6        c    2      K  -4.53913733
7        a    1      L  -6.94936825
8        b    1      L  -0.06846303
...

我对每个物种的建模性能并没有真正的兴趣,但对潜在因素却很感兴趣。 因此,对于每种物种,我从开始预测时就计算出了一系列特征:

df2 <- data.frame(species=rep(letters[1:3],2),
                  time=rep(1:2,each=3),
                  char1=c(rnorm(3,c(1:3),0.1),rnorm(3,c(1:3),0.1)),
                  char2=c(rnorm(3,c(100,200,300),20),rnorm(3,c(100,200,300),20)),
                  char3=c(rnorm(3,c(20,26,40),0.1),rnorm(3,c(20,26,40),0.1)))

    species time   char1     char2    char3
1       a    1 1.0573675 127.38703 20.06343
2       b    1 2.0849696 215.25302 26.04236
3       c    1 3.1334384 308.42294 39.97982
4       a    2 0.9499281  82.63552 19.99231
5       b    2 2.0510098 214.59121 26.06874
6       c    2 3.0868793 310.00532 40.01716

请注意,对于相同的物种/种群,大多数(但不是全部)特征是相似的。 它们之间没有显着的相关性(R2),但显然有一些相关性(例如历史动态中的标准差和时间自相关)。 一些预测方法与其他方法更相似,因此它们的性能也不完全独立。

从总体上和方法上,我怎么知道哪些特性对投影性能的影响最大? 例如,char1可能在很大程度上决定所有投影方法的性能,但也可能特别影响方法K。 这样做的目的是在给定一组人口特征的情况下找到最适合使用的方法。

我研究了几种统计技术,但通常会违反这些假设。 到目前为止,我最好的主意是为每种方法分别使用一种线性回归类型(误差〜char1 + char2 +1 | time),并制作一张表,例如按每种特征解释的偏差。

method   char1   char2   char3
K        5%      10%     3%
L        3%      20%     9%
M        0%      55%     6%

我对这是否是正确的方法感到非常不确定?我还可以考虑采用什么其他统计方法回答问题?

谢谢

0 个答案:

没有答案