解决错误

Question

我想创建一个使用sklearn转换方法的类。我找到了这个article，并以它为例。

from sklearn import preprocessing
from sklearn.base import TransformerMixin

def minmax(dataframe):
  minmax_transformer = preprocessing.MinMaxScaler()
  return minmax_tranformer


class FunctionFeaturizer(TransformerMixin):
    def __init__(self, scaler):
        self.scaler = scaler

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        fv = self.scaler(X)
        return  fv

if __name__=="__main__":
     scaling = FunctionFeaturizer(minmax)
     df = pd.DataFrame({'feature': np.arange(10)})
     df_scaled = scaling.fit(df).transform(df)
     print(df_scaled)

输出为StandardScaler(copy=True, with_mean=True, with_std=True)，实际上是如果我在课堂外使用preprocessing.StandardScaler().fit(df)的结果。

我期望的是：

array([[0.        ],
       [0.11111111],
       [0.22222222],
       [0.33333333],
       [0.44444444],
       [0.55555556],
       [0.66666667],
       [0.77777778],
       [0.88888889],
       [1.        ]])

我感觉我在这里混了一些东西，但我不知道是什么。

更新我做了一些修改：

def minmax():
    return preprocessing.MinMaxScaler()

class FunctionFeaturizer(TransformerMixin):
    def __init__(self, scaler):
        self.scaler = scaler

    def fit(self, X, y=None):
        return self

    def fit_transform(self, X):
        self.scaler.fit(X)
        return self.scaler.transform(X)

if __name__=="__main__":
    scaling = FunctionFeaturizer(minmax)
    df = pd.DataFrame({'feature': np.arange(10)})
    df_scaled = scaling.fit_transform(df)
    print(df_scaled)

但是现在我收到以下错误：

Traceback (most recent call last):
  File "C:/my_file.py", line 33, in <module>
    test_scale = scaling.fit_transform(df)
  File "C:/my_file.py", line 26, in fit_transform
    self.scaler.fit(X)
AttributeError: 'function' object has no attribute 'fit'

Answer 1

解决错误

在您的代码中，您拥有：

if __name__=="__main__":
    scaling = FunctionFeaturizer(minmax)
    df = pd.DataFrame({'feature': np.arange(10)})
    df_scaled = scaling.fit_transform(df)
    print(df_scaled)

换行

scaling = FunctionFeaturizer(minmax)

到

scaling = FunctionFeaturizer(minmax())

您需要调用该函数以将MinMaxScaler的实例化返回给您。

建议

除非您可以将两个过程都优化为fit，否则请实现fit_transform和fit，而不要实现transform和fit_tranform。这样，您所做的事情就更清楚了。

如果仅实现fit和transform，则由于扩展了fit_transform类，因此仍可以调用TransformerMixin。它只会连续调用两个函数。

获得预期的结果

您的转换器正在查看数据集的每一列，并将值线性分布在0和1之间。

因此，要获得预期的结果，这实际上取决于df的外观。但是，您没有与我们分享这一点，因此很难确定您是否会得到它。

但是，如果您有df = [[0],[1],[2],[3],[4],[5],[6],[7],[8],[9]]，则会看到预期的结果。

if __name__=="__main__":
    scaling = FunctionFeaturizer(minmax())
    df = [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]
    df_scaled = scaling.fit_transform(df)
    print(df_scaled)

> [[0.        ]
>  [0.11111111]
>  [0.22222222]
>  [0.33333333]
>  [0.44444444]
>  [0.55555556]
>  [0.66666667]
>  [0.77777778]
>  [0.88888889]
>  [1.        ]]

课堂上的Sklearn方法

1 个答案:

解决错误

建议

获得预期的结果