在线性回归模型(统计)中使用多类别变量

时间:2021-05-19 06:40:47

标签: statistics linear-regression dummy-variable

我想知道如何处理虚拟变量。

我正在尝试使用 sklearn 的线性回归来预测票房收入。

其中一个变量是 Genre,它应该被编码为虚拟变量。

如果电影类型只有动作片、爱情片和西部片,则电影的类型应如下所示:

[电影类型]

动作浪漫西部

--> (1,0,1)

但我了解到我应该在训练线性回归时使用 n-1 个虚拟变量。 这是为了避免虚拟变量陷阱。 (多重共线性)

我应该去掉像西方那样的专栏之一吗? 但是,假设有两部电影。

一个是动作片类型,另一个是动作片和西部片。

在这种情况下,如果我进行 n-1 编码,则变量都应如下所示:

[电影类型]

(动作 1,浪漫 0)

[另一部电影的类型]

(动作 1,浪漫 0)

所以我很困惑..

这是 n-1 编码的例外吗?那么我应该使用所有变量吗?

0 个答案:

没有答案