我正在尝试在Python 2.7中的Scikit-Learn管道中运行自定义转换器FunctionTransformer()
。我使用了文档here中的示例。此示例执行PCA,然后仅选择第二个已转换的组件。转换NumPy数组X并提取转换后的NumPy数组的第二列。
我对官方文档中的代码所做的更改如下:
以下是完整的工作代码:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import FunctionTransformer
def _generate_vector(shift=0.5, noise=15):
return np.arange(1000) + (np.random.rand(1000) - shift) * noise
def generate_dataset():
"""
This dataset is two lines with a slope ~ 1, where one has
a y offset of ~100
"""
return np.vstack((
np.vstack((
_generate_vector(),
_generate_vector() + 100,
)).T,
np.vstack((
_generate_vector(),
_generate_vector(),
)).T,
)), np.hstack((np.zeros(1000), np.ones(1000)))
def all_but_first_column(X):
return X[:, 1:]
def drop_first_component(X, y):
"""
Create a pipeline with PCA and the column selector and use it to
transform the dataset.
"""
pipeline = make_pipeline(
FunctionTransformer(all_but_first_column),
)
pipeline.fit(X,y)
return pipeline.transform(X), y
if __name__ == '__main__':
X, y = generate_dataset()
print X[:20,:]
X_transformed, y_transformed = drop_first_component(*generate_dataset())
print X_transformed[:20,:]
当我运行此代码时,我得到以下输出:
在管道之前:
[[ -9.54109780e-01 1.00849257e+02]
[ -6.44868525e+00 9.89713451e+01]
[ 6.00611903e+00 9.86368545e+01]
[ -1.02307489e-01 9.91617270e+01]
[ 1.12423836e+01 1.04240711e+02]
[ 6.94957296e+00 1.09557543e+02]
[ 5.41042855e+00 1.09859950e+02]
[ 9.54984210e-01 1.03636786e+02]
[ 1.11194327e+01 1.06942524e+02]
[ 1.32146748e+01 1.16489221e+02]
[ 1.72316993e+01 1.16995924e+02]
[ 1.22797187e+01 1.08568249e+02]
[ 1.14360695e+01 1.06799741e+02]
[ 1.75291161e+01 1.13610682e+02]
[ 1.38768685e+01 1.07815267e+02]
[ 1.29773817e+01 1.12404830e+02]
[ 1.54218007e+01 1.11786074e+02]
[ 1.73923980e+01 1.19284226e+02]
[ 1.97373775e+01 1.16807048e+02]
[ 1.26896716e+01 1.26467393e+02]]
管道之后:
[[ 94.35392453]
[ 107.08036958]
[ 96.42404642]
[ 96.07304368]
[ 109.33207232]
[ 102.67435761]
[ 106.34131846]
[ 108.45857447]
[ 105.33376831]
[ 107.79576699]
[ 110.71367112]
[ 116.73589447]
[ 117.74629814]
[ 112.48947773]
[ 109.7573836 ]
[ 121.95472733]
[ 119.62476775]
[ 120.0264124 ]
[ 115.00315794]
[ 120.60368954]]
从这个Github post,它提到FunctionTransformer()
可以用来做一些简单的事情。我希望只在管道中删除一列。
管道前后的X是不同的。如果我想要的是管道要删除X的最后一列,那么这个管道是否应该在管道之前和之后返回相同的X?
其他信息(如有必要):
在我的最终应用中,我将需要使用变换器作为管道中的第一步,然后在第二站使用PCA()
。因此,我首先在这篇文章中测试管道,只有第一步 - FunctionTransformer()
。
答案 0 :(得分:1)
您正在拨打generate_dataset()
两次电话,因此drop_first_component
功能处理的矩阵不是X
,y
,而是一些新生成的数据
将相同的(X, y)
直接传递给generate_dataset
可以解决问题:
if __name__ == '__main__':
X, y = generate_dataset()
print X[:20, :]
X_transformed, y_transformed = drop_first_component(X, y)
print X_transformed[:20, :]
那就是说,我认为在这里使用管道阶段是完全矫枉过正的。您正在导入一些额外的库,包括分布在三个函数中的几个额外的配置和逻辑行 - 所有这些都用于除了简单的列选择X[:, 1:]
之外什么都不做的计算。