解释多元线性回归模型中预测变量的重要性

时间:2021-06-10 12:10:25

标签: r regression evaluation

通过 R 中的 step(y ~ ., data = data),我确定了估计响应的最佳多元线性模型 (y)。我有 50 个观察值。

lm(formula = y ~ reservoir_storage + sewage_plants + mnq_kla_rel + 
porous + complex + lu_urban + lu_forest + wat_prot_area_rel + 
Q95Q50 + model, data = data)

所有自变量都是索引(数字或二进制),但预测变量 model 是我之前使用的最佳模型的名称(即 LAY, PA2, LL1, LBY1, MAT) - 缩写是什么并不重要。这里的意思。以下是一些数据的示例:

    area model Q95Q50 hydropower ... ... ...
   <dbl> <chr>  <dbl>      <dbl>
 1 169.  LL1    0.454          0
 2  88.8 LBY1   0.707          0
 3 130.  LBY1   0.605          0
 4  80.6 LAY    0.322          0
 5  53.9 LAY    0.595          1
 6 110.  LL1    0.415          1
 7 107.  LAY    0.544          0
 8  47.2 LAY    0.412          0
 9  49.0 LAY    0.355          0
10  43.2 PA2    0.216          1

使用来自 vi()-package 的 vip 我计算了重要性 (https://koalaverse.github.io/vip/reference/vi.html)

   Variable          Importance Sign 
   <chr>                  <dbl> <chr>
 1 Q95Q50                 7.06  POS  
 2 modelPA2               5.55  NEG  
 3 modelMAT               5.35  NEG  
 4 lu_urban               4.20  POS  
 5 mnq_kla_rel            4.03  NEG  
 6 modelLBY1              3.53  NEG  
 7 porous                 2.32  POS  
 8 lu_forest              2.05  POS  
 9 wat_prot_area_rel      1.82  NEG  
10 complex                1.75  POS  
11 reservoir_storage      1.73  POS  
12 sewage_plants          1.27  NEG  
13 modelLL1               0.936 NEG  

enter image description here

虽然我想知道如何解释重要性值(我理解符号列),但我在将模型重要性绑定在一起时遇到了更多问题。我得到 modelMATmodelPA2,但我想要 model 的重要性作为 ANOVA 表中的总数:

> fit %>%  anova
Analysis of Variance Table

Response: y
                  Df   Sum Sq  Mean Sq F value    Pr(>F)    
reservoir_storage  1 0.000068 0.000068  0.0773  0.782553    
sewage_plants      1 0.000945 0.000945  1.0697  0.307917    
mnq_kla_rel        1 0.014368 0.014368 16.2627  0.000274 ***
porous             1 0.005891 0.005891  6.6674  0.014034 *  
complex            1 0.006897 0.006897  7.8064  0.008291 ** 
lu_urban           1 0.009580 0.009580 10.8430  0.002229 ** 
lu_forest          1 0.000087 0.000087  0.0981  0.755980    
wat_prot_area_rel  1 0.001442 0.001442  1.6318  0.209633    
Q95Q50             1 0.059144 0.059144 66.9435 9.884e-10 ***
model              4 0.046172 0.011543 13.0654 1.138e-06 ***
Residuals         36 0.031805 0.000883                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

也许有人可以帮助我解决这些问题:

  • 为什么 LAY 没有列为 model,而是列为所有其他型号名称?
  • 有没有办法总结所有不同模型的重要性?
  • 量化不同预测变量重要性的最佳方法是什么,我可以以相对方式使用 p 值吗?
  • 有没有人在解释重要性值方面有经验,可以给我一个提示,例如重要性值的单位/或含义是什么?

最好+谢谢,迈克尔

0 个答案:

没有答案