我的问题是我希望使用几个分类变量对数据进行特征选择。我在get_dummies
中使用pandas
来生成这些分类变量的所有稀疏矩阵。我的问题是sklearn如何知道一个特定的稀疏矩阵实际上属于一个特征并选择/删除所有特征?例如,我有一个名为city的变量。纽约,芝加哥和波士顿有三个级别用于该变量,因此稀疏矩阵看起来像:
[1,0,0]
[0,1,0]
[0,0,1]
我如何告知sklearn,这三个“列”实际上属于一个特征,即城市,最终不会选择纽约,并删除芝加哥和波士顿?
非常感谢你!
答案 0 :(得分:5)
你不能。 scikit-learn中的特征选择例程将彼此独立地考虑虚拟变量。这意味着他们可以修剪"分类变量的域到低于预测的重要值。