sklearn StandardScaler返回全零

时间:2017-10-04 01:45:24

标签: python scikit-learn

我从之前的模型中保存了一个sklearn StandardScaler,并尝试将其应用于新数据

scaler = myOldStandardScaler
print("ORIG:", X)
print("CLASS:", X.__class__)
X = scaler.fit_transform(X)
print("SCALED:", X)

我有三个观察,每个观察2000个特征。如果我单独运行每个观察,我得到全零的输出。

ORIG: [[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[ 0.  0.  0. ...,  0.  0.  0.]]

但是,如果我将所有三个观察结果附加到一个数组中,我会得到我想要的结果

ORIG: [[  0.00000000e+00   8.69737728e-08   7.53361877e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  9.49627142e-04   0.00000000e+00   0.00000000e+00 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[-1.07174217  1.41421356  1.37153077 ...,  0.          0.          0.        ]
[ 1.33494964 -0.70710678 -0.98439142 ...,  0.          0.          0.        ]
[-0.26320747 -0.70710678 -0.38713935 ...,  0.          0.          0.        ]]

我见过这两个问题:

两者都没有得到接受的答案。

我试过了:

  • 从(1,n)重塑为(n,1)(这会得到错误的结果)
  • 将数组转换为np.float32np.float64(仍为零)
  • 创建一个数组数组(同样,全部为零)
  • 创建np.matrix(再次,全部为零)

我错过了什么? fit_transform的输入变为相同类型,只是大小不同。

如何让StandardScaler使用单次观察?

2 个答案:

答案 0 :(得分:9)

当您尝试将fit_transform对象的StandardScaler方法应用于大小(1,n)的数组时,您显然会得到全零,因为对于每个数组,您从中减去它的意思是这个数字,等于数字并除以此数字的标准。如果要获得正确的数组缩放,应将其转换为大小为(n,1)的数组。你可以这样做:

import numpy as np

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.fit_transform(X[:, np.newaxis])

在这种情况下,您可以通过其功能获得一个对象的标准缩放,这不是您正在寻找的 如果要通过3个对象的一个​​特征进行缩放,则应该使用与每个对象对应的特定要素的值传递给fit_transform大小为(3,1的)方法数组。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.fit_transform(X[:, np.newaxis]) # you should get
# array([[-1.07174217], [1.33494964], [-0.26320747]]) you're looking for

如果您想使用已安装的StandardScaler对象,则不应使用fit_transform方法,因为它会使用新数据重新构造对象。 StandardScaler具有transform方法,该方法适用于单一观察:

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.transform(X.reshape(1, -1))

答案 1 :(得分:2)

我遇到了同样的问题。对于大小为 (1, n) 的数组问题的另一种(更简单的)解决方案是将矩阵转置为大小 (n, 1)。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.transform(X.T)