如何使用具有自定义功能的sklearn管道?

时间:2016-03-19 23:30:24

标签: python machine-learning scikit-learn classification pipeline

我正在使用Python和sklearn进行文本分类。除了矢量化器之外,我还有一些自定义功能。我想知道是否可以将它们与sklearn Pipeline一起使用以及如何将功能堆叠在其中。

我目前没有管道分类代码的简短示例。请告诉我,如果你发现它有什么不妥之处,将非常感谢你的帮助。是否可以以某种方式将其与sklearn Pipeline一起使用? 我创建了自己的函数get_features(),它提取自定义特征,转换矢量化器​​,缩放特征并最终堆叠所有特征。

messages[messageType]

我知道有FeatureUnion,但我不知道它是否可以用于我的目的以及它是否会扩展和支持这些功能。

编辑:这似乎是一个好的开始:https://michelleful.github.io/code-blog/2015/06/20/pipelines/

Haven还没试过,我会这样做。现在的问题是,我如何使用管道进行特征选择。

1 个答案:

答案 0 :(得分:5)

对于任何感兴趣的人,自定义要素类需要具有拟合和变换函数,然后才能在FeatureUnion中使用。有关详细示例,请在此处查看我的其他问题> How to fit different inputs into an sklearn Pipeline?