关于模型和分类器的GridSearch

时间:2018-05-10 11:56:36

标签: python scikit-learn pipeline grid-search

我刚刚在模型网格选择中遇到了这个例子:

https://chrisalbon.com/machine_learning/model_selection/model_selection_using_grid_search/

问题:

示例读取

# Create a pipeline
pipe = Pipeline([('classifier', RandomForestClassifier())])

# Create space of candidate learning algorithms and their hyperparameters
search_space = [{'classifier': [LogisticRegression()],
                 'classifier__penalty': ['l1', 'l2'],
                 'classifier__C': np.logspace(0, 4, 10)},
                {'classifier': [RandomForestClassifier()],
                 'classifier__n_estimators': [10, 100, 1000],
                 'classifier__max_features': [1, 2, 3]}]lassifier', RandomForestClassifier())])

据我了解代码,search_space包含使用的分类器及其参数。但是,我没有得到Pipeline的目的以及为什么它包含RandomForestClassifier()

背景: 在我想要的工作流程中,我需要根据3种不同的分类器训练doc2vec模型(gensim)。模型和分类器都应该将GridSearch应用于参数。我喜欢将结果存储在表格中并保存最佳模型,即最精确的模型。

0 个答案:

没有答案