在sklearn中拆分管道

时间:2015-12-31 13:10:49

标签: python pandas save scikit-learn pipeline

我有一个带有以下功能的pandas数据帧df: visitor_id,feature_1,feature_2,...,feature_100,truth_labels

我在sklearn上实现了以下模型:

第一步:使用df.drop(['visitor_id', 'truth_labels'], axis=1)

缩放sklearn.preprocessing.StandardScaler()

第二步:在 10个群集中使用df.drop(['visitor_id', 'truth_labels'], axis=1)群集sklearn.cluster.MiniBatchKMeans()。将df['cluster']设置为相应的群集。

第3步:在sklearn.linear_model.LogisticRegression()上符合 10 df.drop(['visitor_id'], axis=1),每个群集一个。

我有两个问题:

1-是否可以构建Pipeline以汇总这三个步骤?特别是,如何指定我希望在由群集分割的数据上训练10个不同的sklearn.linear_model.LogisticRegression()模型?

2-是否可以保存这个完整的管道?怎么样?

0 个答案:

没有答案