使用自定义管道进行交叉验证scikit-learn

时间:2012-10-24 20:24:12

标签: python machine-learning scikit-learn

我想使用GridSearchCV来确定分类器的参数,使用管道似乎是一个不错的选择。

该应用程序将使用Bag-of-Word功能进行图像分类,但问题是根据是否使用训练或测试示例,存在不同的逻辑管道。

对于每个训练集,KMeans必须运行以生成将用于测试的词汇表,但对于测试数据,不运行KMeans进程。

我看不出如何为管道指定行为差异。

1 个答案:

答案 0 :(得分:3)

您可能需要从KMeans类派生并重写以下方法以使用词汇逻辑:

  • fit_transform只会在火车数据上调用

  • 将在测试数据

    上调用
  • transform

也许班级推导不是最好的选择。您还可以编写自己的变换器类来包装对嵌入式KMeans模型的调用,并提供fit类所需的fit_transform / transform / Pipeline API。第一阶段。

相关问题