我应该将研究周期视为r中多元线性回归的序数变量吗?

时间:2017-12-05 02:25:49

标签: r time statistics regression significance

我有一个称为人均收入的响应变量。它与预测变量,研究期相关联。研究期是3个级别的因素,其中第一个期间跨越2008-2009,第二个期间跨越2010-2012至2013年至2015年的第三个阶段。

我想在r中使用这两个变量和其他变量(年龄和性别)执行多元线性回归。简而言之,公式是人均收入〜学习期+年龄+性别。

我以两种方式进行回归:

  1. 将学习期视为名义或非有序:
  2.   

    lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)

    # Coefficients:
    # (Intercept)  factor(STUDY_PERIOD)2  factor(STUDY_PERIOD)3   AGE      GENDERM  
    # 356.07       63.15                 112.71                  -1.44     -43.73
    
    1. 将学习期视为有序或有序:
    2. df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3))  
      lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
      
          # Coefficients:
          # (Intercept)  STUDY_PERIOD.L  STUDY_PERIOD.Q  AGE    GENDERM  
          # 414.690      79.697          -5.551          -1.440   -43.728
      

      两者都为研究期提供不同的系数。

      我的问题:

      1. 我应该将STUDY_PERIOD视为什么?
      2. 如何解释两种情况下的系数?
      3. 谢谢!

1 个答案:

答案 0 :(得分:1)

这取决于你问的问题。作为一个因素,您要求k-1斜率估计,其中k =类别数。第一个估计对比第1期与第2期,而第二次对比第1期与期间3对比。

作为一个线性变量(非序数),你会问“随着时间的推移,PCI会增加/减少。这里的斜率是每个时期的增加。

线性最容易解释,但可能会掩盖实际效果。但是,这可能是线性的,因为因子(STUDY_PERIOD)3的估计值大约是因子(STUDY_PERIOD)2的估计值的两倍。检查的方法是看一个情节。