我正在使用sklearn Randomized Regression,例如Randomized Logistic Regression。因为随机逻辑回归使用L1惩罚,所以需要设置正则化参数C(或Lasso中的alpha)。
为了找到C的好价值,我通常使用简单的GridSearchCV,如下所示。
但RandomizedLogisticRegression()不支持GridSearchCV,因为它包含bootstrapping。相反,我尝试将典型的LogisticRegression与GridSearchCV一起使用。
params = {'C':[0.1, 1, 10]}
logi = LogisticRegression(penalty='l1')
clf = GridSearchCV(logi, params, cv=10)
我可以通过这种方式获得C,但是,当我将此C值应用于随机逻辑回归时,未选择任何属性。也许GridSearchCV选择的C非常低。
所以,我想知道在使用随机回归时,是否还有其他好方法可以确定C(或alpha)的公允价值。
之前有similar question,但我认为答案是典型的回归。
有人可以给我一个想法吗?
答案 0 :(得分:4)
由于RandomizedLogisticRegression
用于特征选择,因此需要将其作为管道的一部分进行交叉验证。您可以将GridSearchCV
应用于包含它的Pipeline
作为功能选择步骤以及您选择的分类器。示例可能如下所示:
pipeline = Pipeline([
('fs', RandomizedLogisticRegression()),
('clf', LogisticRegression())
])
params = {'fs__C':[0.1, 1, 10]}
grid_search = GridSearchCV(pipeline, params)