我正在使用 PCA 在 sklearn 中创建管道,并使用“passthrough”跳过此步骤。
对于 PCA,我正在测试 n_components
参数的几个值。
from sklearn.datasets import make_regression
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
X_train, y_train = make_regression(n_samples=100, n_features=10)
param_grid = {
'reduce_dim': [PCA(), 'passthrough'],
'reduce_dim__n_components': [1,2,3]
}
pipeline = Pipeline(
steps=[
('reduce_dim', None),
('regressor', LinearRegression())
]
)
grid_search = GridSearchCV(
estimator=pipeline,
param_grid=param_grid,
verbose=10
)
grid_search.fit(X_train, y_train)
我想要实现的是 3 个带 n_components=[1,2,3]
的 PCA 拟合和 1 个不带 PCA 的拟合。
对 4 个候选中的每一个进行 5 次拟合,总共 20 次拟合
我得到的是 3 个 PCA 拟合和 3 个没有 PCA 的拟合(我不需要在没有 PCA 的情况下测试 n_components
的所有三种可能性):
对 6 个候选者中的每一个进行 5 次拟合,总共 30 次拟合
然后是一个运行时错误,它基本上说我不能将 n_components 值分配给“passthrough”(str 对象)
[CV 1/5; 4/6] START reduce_dim=passthrough, reduce_dim__n_components=1...
AttributeError: 'str' object has no attribute 'set_params'
如何让管道跳过步骤(在这种情况下为 reduce_dim
)以及适用于该步骤的所有参数?
我知道我可以像这样使用 param_grid:
param_grid = [
{
'reduce_dim': [PCA()],
'reduce_dim__n_components': [1,2,3]
},
{}
]
但能否以更优雅的方式完成,因为在更复杂的场景中,代码变得非常混乱。
答案 0 :(得分:2)
您想要的参数网格也可以在单个字典中为单个参数定义:
param_grid = {
'reduce_dim' = [PCA(n_components=1), PCA(n_components=2), PCA(n_components=3), 'passthrough']
}
这样做的优点是无需定义多个可能不那么“凌乱”的字典。