我有一个称为人均收入的响应变量。它与预测变量,研究期相关联。研究期是3个级别的因素,其中第一个期间跨越2008-2009,第二个期间跨越2010-2012至2013年至2015年的第三个阶段。
我想在r中使用这两个变量和其他变量(年龄和性别)执行多元线性回归。简而言之,公式是人均收入〜学习期+年龄+性别。
我以两种方式进行回归:
lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) factor(STUDY_PERIOD)2 factor(STUDY_PERIOD)3 AGE GENDERM
# 356.07 63.15 112.71 -1.44 -43.73
df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3)) lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) STUDY_PERIOD.L STUDY_PERIOD.Q AGE GENDERM
# 414.690 79.697 -5.551 -1.440 -43.728
两者都为研究期提供不同的系数。
我的问题:
STUDY_PERIOD
视为什么?谢谢!
答案 0 :(得分:1)
这取决于你问的问题。作为一个因素,您要求k-1斜率估计,其中k =类别数。第一个估计对比第1期与第2期,而第二次对比第1期与期间3对比。
作为一个线性变量(非序数),你会问“随着时间的推移,PCI会增加/减少。这里的斜率是每个时期的增加。
线性最容易解释,但可能会掩盖实际效果。但是,这可能是线性的,因为因子(STUDY_PERIOD)3的估计值大约是因子(STUDY_PERIOD)2的估计值的两倍。检查的方法是看一个情节。