如何根据要素选择浏览选择分类要素

时间:2014-07-29 16:35:21

标签: python scikit-learn feature-selection

我的问题是我希望使用几个分类变量对数据进行特征选择。我在get_dummies中使用pandas来生成这些分类变量的所有稀疏矩阵。我的问题是sklearn如何知道一个特定的稀疏矩阵实际上属于一个特征并选择/删除所有特征?例如,我有一个名为city的变量。纽约,芝加哥和波士顿有三个级别用于该变量,因此稀疏矩阵看起来像:

[1,0,0] [0,1,0] [0,0,1]  我如何告知sklearn,这三个“列”实际上属于一个特征,即城市,最终不会选择纽约,并删除芝加哥和波士顿?

非常感谢你!

1 个答案:

答案 0 :(得分:5)

你不能。 scikit-learn中的特征选择例程将彼此独立地考虑虚拟变量。这意味着他们可以修剪"分类变量的域到低于预测的重要值。