为什么在多元线性回归模型中,虚拟变量要比虚拟变量总数少一个?
就像,如果模型包含4个虚拟变量,我们将更新特征向量以训练回归模型。 x = x[:, 1:4]
。
答案 0 :(得分:1)
通过在回归模型中包含虚拟变量,应该 注意虚拟变量陷阱。虚拟变量陷阱是一个 自变量是多重共线性的场景-a 两个或多个变量高度相关的情况;在 简单来说,一个变量可以从其他变量中预测出来。
假设您有一个简单的类别,例如性别,类别为“男性”和“女性”。您将获得两个虚拟变量«male»和«female»,它们可以为true或false。这完全是多余的,因为您可以相互预测。
在另一个示例中:当您有四个类别A / B / C / D时,您将获得四个虚拟变量。如果您知道该类不是A,B或C,则知道它必须为D。因此,您可以并且应该删除一个虚拟变量。
从技术上讲,虚拟变量陷阱是自变量为multi-collinear-两个或多个变量高度相关的情况。这将导致您的回归算法出现问题:
在这种情况下,多元回归的系数估计 可能会因模型中的细微变化而发生不规律的变化,或者 数据。
基线:在对具有N个可能值的分类变量建模时,应使用N-1个虚拟变量。