分类变量的多重共线性

时间:2016-03-14 21:25:21

标签: statistics modeling logistic-regression

如果数据包含分类和连续独立变量,有哪些不同的可用于检查多重共线性的措施?

我可以通过将分类变量转换为虚拟变量来使用VIF吗?由于我无法在互联网上找到任何参考资料,因此存在根本缺陷吗?

1 个答案:

答案 0 :(得分:0)

Can I use VIF by converting categorical variables into dummy variables ?

是的,你可以。这种方法没有根本的缺陷。

if the data contains both categorical and continuous independent variables?

多重共线性并不关心它是分类变量还是整数变量。分类变量没有什么特别之处。将分类变量转换为二进制变量,并将它们视为所有其他变量。

我认为你的担忧是分类变量必须相互关联,这是一个有效的问题。假设参考类别中案例的比例很小的情况。让我们说有3个分类变量:超重,正常,体重不足。我们可以把它变成2个分类变量。然后,如果一个类别的数据非常小(正常人为百分之五,所有其他95人体重不足或超重),指标变量必然会有高VIF,即使分类变量没有关联与回归模型中的其他变量一起使用。

What are the different measures available to check for multicollinearity

检测多重共线性的一种方法是获取数据的相关矩阵,并检查相关矩阵的特征值。

特征值接近0表示数据是相关的。