sklearn - 如何检索PCA组件并解释传递给GridSearchCV的Pipeline内部的差异

时间:2017-10-17 22:25:06

标签: python scikit-learn pipeline grid-search

我正在使用带有管道的GridSearchCV,如下所示:

grid = GridSearchCV(
    Pipeline([
        ('reduce_dim', PCA()),
        ('classify', RandomForestClassifier(n_jobs = -1))
        ]),
    param_grid=[
        {
            'reduce_dim__n_components': range(0.7,0.9,0.1),
            'classify__n_estimators': range(10,50,5),
            'classify__max_features': ['auto', 0.2],
            'classify__min_samples_leaf': [40,50,60],
            'classify__criterion': ['gini', 'entropy']
        }
    ],
    cv=5, scoring='f1')

grid.fit(X,y)

如何从components模型中检索explained_variancegrid.best_estimator_等PCA详细信息?

此外,我还想使用pickle将best_estimator_保存到文件中,然后加载它。如何从此加载的估算器中检索PCA详细信息?我怀疑它和上面一样。

1 个答案:

答案 0 :(得分:3)

grid.best_estimator_将使用最佳参数访问管道。

现在使用named_steps[]attribute访问管道的内部估算器。

因此grid.best_estimator_.named_steps['reduce_dim']会为您提供pca个对象。现在,您只需使用它来访问此pca对象的components_explained_variance_属性,如下所示:

grid.best_estimator_.named_steps['reduce_dim'].components_ grid.best_estimator_.named_steps['reduce_dim'].explained_variance_