我有一个带有以下功能的pandas数据帧df
:
visitor_id,feature_1,feature_2,...,feature_100,truth_labels
我在sklearn上实现了以下模型:
第一步:使用df.drop(['visitor_id', 'truth_labels'], axis=1)
sklearn.preprocessing.StandardScaler()
第二步:在 10个群集中使用df.drop(['visitor_id', 'truth_labels'], axis=1)
群集sklearn.cluster.MiniBatchKMeans()
。将df['cluster']
设置为相应的群集。
第3步:在sklearn.linear_model.LogisticRegression()
上符合 10 df.drop(['visitor_id'], axis=1)
,每个群集一个。
我有两个问题:
1-是否可以构建Pipeline
以汇总这三个步骤?特别是,如何指定我希望在由群集分割的数据上训练10个不同的sklearn.linear_model.LogisticRegression()
模型?
2-是否可以保存这个完整的管道?怎么样?