我有一个超过300个预测变量的pandas数据集,它们都是连续的和分类的。目标变量是分类的,其值为0或1.我将执行逻辑回归,我想使用scikit学习模块中的递归特征选择来获取预测变量的候选名单。我知道如何在rfe.fit(x,y)函数中分配目标变量。如何将所有其他变量分配给x矩阵?
谢谢!
答案 0 :(得分:0)
您可以使用df.drop()
as it is described here请注意,在删除列时,您应该设置axis=1
答案 1 :(得分:0)
你说你想使用scikit-learn feature selector。
您将输入矩阵传递给特征选择器(例如SelectKBest
),然后您可以使用分类器中的新功能。
# X, y = your features and labels
sel = SelectKBest(chi2, k=2) # or any other feature selector
X_new = sel.fit_transform(X, y)
# clf = classifier of your choice
clf.fit(X_new, y)