我的数据包含很多分类数据,例如年龄,颜色,大小,种族,性别等。 问题是在scikit-learn中我们无法将特征设置为R中的因子,因此我们必须将分类数据转换为虚拟列。正如
color size
green M
red L
blue XL
转换为
color_blue color_green color_red size_L size_M size_XL
0.0 1.0 0.0 0.0 1.0 0.0
0.0 0.0 1.0 1.0 0.0 0.0
1.0 0.0 0.0 0.0 0.0 1.0
但是,我想将功能排列为颜色或大小,而不是color_blue或size_M。 有没有可行的方法呢?或者我可以总结每个相关功能的排名分数的值? (比如颜色列的得分应该是(绿色蓝色和红色得分)的总和)
请注意,我使用ExtraTreesClassifier进行排名分数计算。