我想知道如何处理虚拟变量。
我正在尝试使用 sklearn 的线性回归来预测票房收入。
其中一个变量是 Genre,它应该被编码为虚拟变量。
如果电影类型只有动作片、爱情片和西部片,则电影的类型应如下所示:
[电影类型]
动作浪漫西部
--> (1,0,1)
但我了解到我应该在训练线性回归时使用 n-1 个虚拟变量。 这是为了避免虚拟变量陷阱。 (多重共线性)
我应该去掉像西方那样的专栏之一吗? 但是,假设有两部电影。
一个是动作片类型,另一个是动作片和西部片。
在这种情况下,如果我进行 n-1 编码,则变量都应如下所示:
[电影类型]
(动作 1,浪漫 0)
[另一部电影的类型]
(动作 1,浪漫 0)
所以我很困惑..
这是 n-1 编码的例外吗?那么我应该使用所有变量吗?