One-Hot-Encode两个分类变量,每个变量在sklearn中有3个级别

时间:2017-05-01 04:47:57

标签: python pandas statistics scikit-learn dummy-variable

我必须编码两个分类变量A(等级= A1A2A3)和B(等级= B1B2B3)为虚拟变量。我的理解是,OneHotEncoder中的sklearn会对我的变量进行编码,例如A1 + A2 + A3 + B1 + B2 + B3 = 2(又名K-K方案)。这种方法会在拟合模型时引起诸如共线性等问题吗?

为什么sklearnpandas.get_dummiesdrop_first=True相同的方式提供K-1编码选项?或者,我错过了什么?

0 个答案:

没有答案