我必须编码两个分类变量A
(等级= A1
,A2
,A3
)和B
(等级= B1
,B2
,B3
)为虚拟变量。我的理解是,OneHotEncoder
中的sklearn
会对我的变量进行编码,例如A1
+ A2
+ A3
+ B1
+ B2
+ B3
= 2(又名K-K方案)。这种方法会在拟合模型时引起诸如共线性等问题吗?
为什么sklearn
以pandas.get_dummies
与drop_first=True
相同的方式提供K-1编码选项?或者,我错过了什么?