Scikit-Learn FunctionTransformer在管道中没有其他功能 - 不返回原始数据?

时间:2016-05-16 02:37:49

标签: python-2.7 scikit-learn pipeline

我正在尝试在Python 2.7中的Scikit-Learn管道中运行自定义转换器FunctionTransformer()。我使用了文档here中的示例。此示例执行PCA,然后仅选择第二个已转换的组件。转换NumPy数组X并提取转换后的NumPy数组的第二列。

我对官方文档中的代码所做的更改如下:

  1. 从管道中删除PCA()
  2. 添加2个打印语句以查看管道前的X和管道后的X
  3. 删除了火车测试分割 - 这样我训练X然后转换X
  4. 评论所有密谋代码
  5. 以下是完整的工作代码:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.cross_validation import train_test_split
    from sklearn.decomposition import PCA
    from sklearn.pipeline import make_pipeline
    from sklearn.preprocessing import FunctionTransformer
    
    def _generate_vector(shift=0.5, noise=15):
        return np.arange(1000) + (np.random.rand(1000) - shift) * noise
    
    def generate_dataset():
        """
        This dataset is two lines with a slope ~ 1, where one has
        a y offset of ~100
        """
        return np.vstack((
            np.vstack((
                _generate_vector(),
                _generate_vector() + 100,
            )).T,
            np.vstack((
                _generate_vector(),
                _generate_vector(),
            )).T,
        )), np.hstack((np.zeros(1000), np.ones(1000)))
    
    def all_but_first_column(X):
        return X[:, 1:]
    
    def drop_first_component(X, y):
        """
        Create a pipeline with PCA and the column selector and use it to
        transform the dataset.
        """
        pipeline = make_pipeline(
            FunctionTransformer(all_but_first_column),
        )
        pipeline.fit(X,y)
        return pipeline.transform(X), y
    
    if __name__ == '__main__':
        X, y = generate_dataset()
        print X[:20,:]
        X_transformed, y_transformed = drop_first_component(*generate_dataset())
        print X_transformed[:20,:]
    

    当我运行此代码时,我得到以下输出:

    在管道之前:

    [[ -9.54109780e-01   1.00849257e+02]
     [ -6.44868525e+00   9.89713451e+01]
     [  6.00611903e+00   9.86368545e+01]
     [ -1.02307489e-01   9.91617270e+01]
     [  1.12423836e+01   1.04240711e+02]
     [  6.94957296e+00   1.09557543e+02]
     [  5.41042855e+00   1.09859950e+02]
     [  9.54984210e-01   1.03636786e+02]
     [  1.11194327e+01   1.06942524e+02]
     [  1.32146748e+01   1.16489221e+02]
     [  1.72316993e+01   1.16995924e+02]
     [  1.22797187e+01   1.08568249e+02]
     [  1.14360695e+01   1.06799741e+02]
     [  1.75291161e+01   1.13610682e+02]
     [  1.38768685e+01   1.07815267e+02]
     [  1.29773817e+01   1.12404830e+02]
     [  1.54218007e+01   1.11786074e+02]
     [  1.73923980e+01   1.19284226e+02]
     [  1.97373775e+01   1.16807048e+02]
     [  1.26896716e+01   1.26467393e+02]]
    

    管道之后:

    [[  94.35392453]
     [ 107.08036958]
     [  96.42404642]
     [  96.07304368]
     [ 109.33207232]
     [ 102.67435761]
     [ 106.34131846]
     [ 108.45857447]
     [ 105.33376831]
     [ 107.79576699]
     [ 110.71367112]
     [ 116.73589447]
     [ 117.74629814]
     [ 112.48947773]
     [ 109.7573836 ]
     [ 121.95472733]
     [ 119.62476775]
     [ 120.0264124 ]
     [ 115.00315794]
     [ 120.60368954]]
    

    从这个Github post,它提到FunctionTransformer()可以用来做一些简单的事情。我希望只在管道中删除一列。

    管道前后的X是不同的。如果我想要的是管道要删除X的最后一列,那么这个管道是否应该在管道之前和之后返回相同的X?

    其他信息(如有必要):

    在我的最终应用中,我将需要使用变换器作为管道中的第一步,然后在第二站使用PCA()。因此,我首先在这篇文章中测试管道,只有第一步 - FunctionTransformer()

1 个答案:

答案 0 :(得分:1)

您正在拨打generate_dataset()两次电话,因此drop_first_component功能处理的矩阵不是Xy,而是一些新生成的数据

将相同的(X, y)直接传递给generate_dataset可以解决问题:

if __name__ == '__main__':
  X, y = generate_dataset()
  print X[:20, :]
  X_transformed, y_transformed = drop_first_component(X, y)
  print X_transformed[:20, :]

那就是说,我认为在这里使用管道阶段是完全矫枉过正的。您正在导入一些额外的库,包括分布在三个函数中的几个额外的配置和逻辑行 - 所有这些都用于除了简单的列选择X[:, 1:]之外什么都不做的计算。