标签: python scikit-learn regression classification variable-selection
我有一个包含一堆特征的数据集,其中大多数相互关联。因此,我想执行一些变量消除(例如,使用RFE或SelectKBest)。 我发现,如果执行这样的变量选择,然后通过利用GridSearchCV进行一些超参数调整,然后依次通过传递上一个中找到的参数,对已经受限制的功能集进行另一轮变量选择。作为模型的参数(在我的情况下为Ridge和SVC(kernel='rbf'))中,交叉验证的平均性能得分会提高。 执行这种双变量选择是不好的做法吗?它会带来偏见或导致任何特定问题吗?
RFE
SelectKBest
GridSearchCV
Ridge
SVC(kernel='rbf')
谢谢。