数值数据

时间:2018-03-19 03:48:42

标签: python-2.7 scikit-learn pca

我尝试使用sklearn在162列和69,000行的数据集上运行PCA。我一直收到下面的浮动错误信息,我已经检查过以确保我只有数字数据。我能做错什么?任何帮助都会非常感激。

    >>> data = np.loadtxt("PCAdata.txt")
    >>> trans = data.transpose()
    >>> trans
    array([[0., 0., 1., ..., 0., 0., 1.],
           [0., 0., 1., ..., 1., 0., 2.],
           [0., 0., 1., ..., 0., 0., 1.],
           ...,
           [1., 0., 1., ..., 0., 0., 1.],
           [0., 0., 1., ..., 0., 0., 2.],
           [0., 0., 1., ..., 0., 0., 2.]])
    >>> sscaler = preprocessing.StandardScaler().fit(trans)
    >>> sscaler
    StandardScaler(copy=True, with_mean=True, with_std=True)
    >>> pca = PCA(n_components=2)
    >>> pca.fit(sscaler)
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      File "C:\Python27\lib\site-packages\sklearn\decomposition\pca.py", line 329, i
    n fit
        self._fit(X)
      File "C:\Python27\lib\site-packages\sklearn\decomposition\pca.py", line 370, i
    n _fit
        copy=self.copy)
      File "C:\Python27\lib\site-packages\sklearn\utils\validation.py", line 433, in
     check_array
        array = np.array(array, dtype=dtype, order=order, copy=copy)
    TypeError: float() argument must be a string or a number

1 个答案:

答案 0 :(得分:1)

fit方法不返回矩阵。 Sklearn给出错误,因为您提供的参数sscaler不是数字矩阵。如果您想获得缩放数据矩阵,可以使用fit_transform方法或分别使用fittransform方法。

示例:

data = np.random.randint(0, 3, (100, 10))
scaler = StandardScaler()
data = scaler.fit_transform(data)
pca = PCA()
data = pca.fit_transform(data)