Scikit学习分类功能排名

时间:2016-04-24 04:37:43

标签: python r numpy scikit-learn

我的数据包含很多分类数据,例如年龄,颜色,大小,种族,性别等。 问题是在scikit-learn中我们无法将特征设置为R中的因子,因此我们必须将分类数据转换为虚拟列。正如

color size
green  M
red    L
blue   XL

转换为

color_blue  color_green  color_red  size_L  size_M  size_XL
0.0          1.0        0.0         0.0     1.0      0.0
0.0          0.0        1.0         1.0     0.0      0.0
1.0          0.0        0.0         0.0     0.0      1.0

但是,我想将功能排列为颜色或大小,而不是color_blue或size_M。 有没有可行的方法呢?或者我可以总结每个相关功能的排名分数的值? (比如颜色列的得分应该是(绿色蓝色和红色得分)的总和)

请注意,我使用ExtraTreesClassifier进行排名分数计算。

0 个答案:

没有答案