我刚刚在模型网格选择中遇到了这个例子:
https://chrisalbon.com/machine_learning/model_selection/model_selection_using_grid_search/
问题:
示例读取
# Create a pipeline
pipe = Pipeline([('classifier', RandomForestClassifier())])
# Create space of candidate learning algorithms and their hyperparameters
search_space = [{'classifier': [LogisticRegression()],
'classifier__penalty': ['l1', 'l2'],
'classifier__C': np.logspace(0, 4, 10)},
{'classifier': [RandomForestClassifier()],
'classifier__n_estimators': [10, 100, 1000],
'classifier__max_features': [1, 2, 3]}]lassifier', RandomForestClassifier())])
据我了解代码,search_space
包含使用的分类器及其参数。但是,我没有得到Pipeline
的目的以及为什么它包含RandomForestClassifier()
?
背景: 在我想要的工作流程中,我需要根据3种不同的分类器训练doc2vec模型(gensim)。模型和分类器都应该将GridSearch应用于参数。我喜欢将结果存储在表格中并保存最佳模型,即最精确的模型。