熊猫数据和scikit学习

时间:2016-03-07 16:36:30

标签: python pandas scikit-learn

我有一个超过300个预测变量的pandas数据集,它们都是连续的和分类的。目标变量是分类的,其值为0或1.我将执行逻辑回归,我想使用scikit学习模块中的递归特征选择来获取预测变量的候选名单。我知道如何在rfe.fit(x,y)函数中分配目标变量。如何将所有其他变量分配给x矩阵?

谢谢!

2 个答案:

答案 0 :(得分:0)

您可以使用df.drop() as it is described here请注意,在删除列时,您应该设置axis=1

答案 1 :(得分:0)

你说你想使用scikit-learn feature selector

您将输入矩阵传递给特征选择器(例如SelectKBest),然后您可以使用分类器中的新功能。

# X, y = your features and labels
sel = SelectKBest(chi2, k=2) # or any other feature selector
X_new = sel.fit_transform(X, y)

# clf = classifier of your choice
clf.fit(X_new, y)