阅读scikit-learn doc on Pipeline,所有示例都会在整个数据集中应用变换器(例如StandardScaler
,PCA
)。
是否可以仅对数据集中的特定变量进行缩放?如果可以,那么我可以将我的整个特征工程过程放入管道并将其应用于我的列车和测试集。
答案 0 :(得分:2)
您可以使用FeatureUnion和自定义变换器的组合,只使用您感兴趣的变量。
然而,你是正确的,sklearn并不能很好地处理异构功能集。有一个库sklearn-pandas使得它更容易,让你为pandas数据帧的特定列定义单独的管道。