statistics - 在线性回归模型（统计）中使用多类别变量 - Thinbug

在线性回归模型（统计）中使用多类别变量

时间：2021-05-19 06:40:47

标签： statistics linear-regression dummy-variable

我想知道如何处理虚拟变量。

我正在尝试使用 sklearn 的线性回归来预测票房收入。

其中一个变量是 Genre，它应该被编码为虚拟变量。

如果电影类型只有动作片、爱情片和西部片，则电影的类型应如下所示：

[电影类型]

动作浪漫西部

--> (1,0,1)

但我了解到我应该在训练线性回归时使用 n-1 个虚拟变量。这是为了避免虚拟变量陷阱。（多重共线性）

我应该去掉像西方那样的专栏之一吗？ 但是，假设有两部电影。

一个是动作片类型，另一个是动作片和西部片。

在这种情况下，如果我进行 n-1 编码，则变量都应如下所示：

[电影类型]

（动作 1，浪漫 0）

[另一部电影的类型]

（动作 1，浪漫 0）

所以我很困惑..

这是 n-1 编码的例外吗？那么我应该使用所有变量吗？

0 个答案:

没有答案