多元线性回归中的虚拟变量

时间:2018-08-19 03:22:24

标签: machine-learning linear-regression

为什么在多元线性回归模型中,虚拟变量要比虚拟变量总数少一个?

就像,如果模型包含4个虚拟变量,我们将更新特征向量以训练回归模型。 x = x[:, 1:4]

1 个答案:

答案 0 :(得分:1)

由于Dummy Variable Trap

  

通过在回归模型中包含虚拟变量,应该   注意虚拟变量陷阱。虚拟变量陷阱是一个   自变量是多重共线性的场景-a   两个或多个变量高度相关的情况;在   简单来说,一个变量可以从其他变量中预测出来。

假设您有一个简单的类别,例如性别,类别为“男性”和“女性”。您将获得两个虚拟变量«male»和«female»,它们可以为true或false。这完全是多余的,因为您可以相互预测。

在另一个示例中:当您有四个类别A / B / C / D时,您将获得四个虚拟变量。如果您知道该类不是A,B或C,则知道它必须为D。因此,您可以并且应该删除一个虚拟变量。

从技术上讲,虚拟变量陷阱是自变量为multi-collinear-两个或多个变量高度相关的情况。这将导致您的回归算法出现问题:

  

在这种情况下,多元回归的系数估计   可能会因模型中的细微变化而发生不规律的变化,或者   数据。

基线:在对具有N个可能值的分类变量建模时,应使用N-1个虚拟变量。