Question

我正在使用 PCA 在 sklearn 中创建管道，并使用“passthrough”跳过此步骤。对于 PCA，我正在测试 n_components 参数的几个值。

from sklearn.datasets import make_regression
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

X_train, y_train = make_regression(n_samples=100, n_features=10)


param_grid = {
    'reduce_dim': [PCA(), 'passthrough'],
    'reduce_dim__n_components': [1,2,3]
}

pipeline = Pipeline(
        steps=[
            ('reduce_dim', None), 
            ('regressor', LinearRegression())
        ]
    )

grid_search = GridSearchCV(
    estimator=pipeline, 
    param_grid=param_grid, 
    verbose=10
)
grid_search.fit(X_train, y_train)

我想要实现的是 3 个带 n_components=[1,2,3] 的 PCA 拟合和 1 个不带 PCA 的拟合。

<块引用>

对 4 个候选中的每一个进行 5 次拟合，总共 20 次拟合

我得到的是 3 个 PCA 拟合和 3 个没有 PCA 的拟合（我不需要在没有 PCA 的情况下测试 n_components 的所有三种可能性）：

<块引用>

对 6 个候选者中的每一个进行 5 次拟合，总共 30 次拟合

然后是一个运行时错误，它基本上说我不能将 n_components 值分配给“passthrough”（str 对象）

[CV 1/5; 4/6] START reduce_dim=passthrough, reduce_dim__n_components=1...
AttributeError: 'str' object has no attribute 'set_params'

如何让管道跳过步骤（在这种情况下为 reduce_dim）以及适用于该步骤的所有参数？

我知道我可以像这样使用 param_grid：

param_grid = [
    {
        'reduce_dim': [PCA()],
        'reduce_dim__n_components': [1,2,3]
    },
    {}
]

但能否以更优雅的方式完成，因为在更复杂的场景中，代码变得非常混乱。

Answer 1

您想要的参数网格也可以在单个字典中为单个参数定义：

param_grid = {
    'reduce_dim' = [PCA(n_components=1), PCA(n_components=2), PCA(n_components=3), 'passthrough']
}

这样做的优点是无需定义多个可能不那么“凌乱”的字典。

我如何让流水线跳过这一步（使用“直通”）以及 param_grid 中适用于该步骤的所有参数？

1 个答案: