我尝试使用sklearn在162列和69,000行的数据集上运行PCA。我一直收到下面的浮动错误信息,我已经检查过以确保我只有数字数据。我能做错什么?任何帮助都会非常感激。
>>> data = np.loadtxt("PCAdata.txt")
>>> trans = data.transpose()
>>> trans
array([[0., 0., 1., ..., 0., 0., 1.],
[0., 0., 1., ..., 1., 0., 2.],
[0., 0., 1., ..., 0., 0., 1.],
...,
[1., 0., 1., ..., 0., 0., 1.],
[0., 0., 1., ..., 0., 0., 2.],
[0., 0., 1., ..., 0., 0., 2.]])
>>> sscaler = preprocessing.StandardScaler().fit(trans)
>>> sscaler
StandardScaler(copy=True, with_mean=True, with_std=True)
>>> pca = PCA(n_components=2)
>>> pca.fit(sscaler)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\site-packages\sklearn\decomposition\pca.py", line 329, i
n fit
self._fit(X)
File "C:\Python27\lib\site-packages\sklearn\decomposition\pca.py", line 370, i
n _fit
copy=self.copy)
File "C:\Python27\lib\site-packages\sklearn\utils\validation.py", line 433, in
check_array
array = np.array(array, dtype=dtype, order=order, copy=copy)
TypeError: float() argument must be a string or a number
答案 0 :(得分:1)
fit
方法不返回矩阵。 Sklearn给出错误,因为您提供的参数sscaler
不是数字矩阵。如果您想获得缩放数据矩阵,可以使用fit_transform
方法或分别使用fit
和transform
方法。
示例:
data = np.random.randint(0, 3, (100, 10))
scaler = StandardScaler()
data = scaler.fit_transform(data)
pca = PCA()
data = pca.fit_transform(data)