Question

我有一个超过300个预测变量的pandas数据集，它们都是连续的和分类的。目标变量是分类的，其值为0或1.我将执行逻辑回归，我想使用scikit学习模块中的递归特征选择来获取预测变量的候选名单。我知道如何在rfe.fit（x，y）函数中分配目标变量。如何将所有其他变量分配给x矩阵？

谢谢！

Answer 1

您可以使用df.drop() as it is described here请注意，在删除列时，您应该设置axis=1

Answer 2

你说你想使用scikit-learn feature selector。

您将输入矩阵传递给特征选择器（例如SelectKBest），然后您可以使用分类器中的新功能。

# X, y = your features and labels
sel = SelectKBest(chi2, k=2) # or any other feature selector
X_new = sel.fit_transform(X, y)

# clf = classifier of your choice
clf.fit(X_new, y)

熊猫数据和scikit学习

2 个答案: