说我有数据框df
,其中包含10个要素,但其中9个是分类的,我想为数据拟合ExtraTree分类器并获得要素的重要性。
现在,我正在将熊猫pd.get_dummies
用于9种分类特征的一次性编码。问题是,当调用etc.feature_importances_
(etc
被分类器)时,我得到了每个类别/因素的每个级别的重要性,而不是整个因素,也就是说,所有分类特征都具有2个级别,那么我得到2 * 9 + 1 = 19个特征。我想要原始的10个功能的重要性。
编辑: 我认为,如果所有功能都是独立的,则应该能够总结每个因素的水平,从而获得“因素重要性”