有人可以帮我解释别名函数输出,以便在多元回归模型中测试多重共线性。我知道我的模型中的一些预测变量是高度相关的,我想使用别名表来识别它们。
Model :
Score ~ Comments + Pros + Cons + Advice + Response + Value + Recommendation
+ 6Months + 12Months + 2Years + 3Years + Daily + Weekly + Monthly
Complete :
(Intercept) Comments Pros Cons Advice Response Value1
UseMonthly1 0 0 0 0 0 0 0
Recommendation1 6Months1 12Months1 2Years1
UseMonthly1 0 1 1 1
3Years1 Daily1 Weekly1
UseMonthly1 1 -1 -1
价值,推荐,6个月,12个月,2年,3年,每日,每周和每月是二进制分类变量。
分数,评论,优点,缺点,建议和响应是数字变量。
我可以假设UseMonthly与6个月,12个月,2年,3年,每日,每周高度相关吗?别名输出中1和-1值之间的区别是什么?它是正相关还是负相关?
答案 0 :(得分:2)
“完整”矩阵中的非零条目表明这些术语与UseMonthly
线性相关。这意味着它们具有高度相关性,但术语可以高度相关,而不是线性相关。
如果您的目的是识别和删除相关变量,则应删除UseMonthly
,但您可能也想删除其他变量。识别可能在多重共线性方面存在问题的变量的常用方法是搜索大的方差膨胀因子(通过例如car::vif
计算)。