我需要在维度(5000,26421)的数据集上执行内核pca以获得更低维度的表示。为了选择组件的数量(比如k)参数,我正在执行数据的缩减和重建到原始空间,并获得不同k值的重建和原始数据的均方误差。
我遇到了sklearn的网格搜索功能,并希望将其用于上述参数估算。由于内核pca没有评分函数,我实现了自定义评分函数并将其传递给Gridsearch。
from sklearn.decomposition.kernel_pca import KernelPCA
from sklearn.model_selection import GridSearchCV
import numpy as np
import math
def scorer(clf, X):
Y1 = clf.inverse_transform(X)
error = math.sqrt(np.mean((X - Y1)**2))
return error
param_grid = [
{'degree': [1, 10], 'kernel': ['poly'], 'n_components': [100, 400, 100]},
{'gamma': [0.001, 0.0001], 'kernel': ['rbf'], 'n_components': [100, 400, 100]},
]
kpca = KernelPCA(fit_inverse_transform=True, n_jobs=30)
clf = GridSearchCV(estimator=kpca, param_grid=param_grid, scoring=scorer)
clf.fit(X)
但是,它会导致以下错误:
/usr/lib64/python2.7/site-packages/sklearn/metrics/pairwise.py in check_pairwise_arrays(X=array([[ 2., 2., 1., ..., 0., 0., 0.],
...., 0., 1., ..., 0., 0., 0.]], dtype=float32), Y=array([[-0.05904257, -0.02796719, 0.00919842, .... 0.00148251, -0.00311711]], dtype=float32), precomp
uted=False, dtype=<type 'numpy.float32'>)
117 "for %d indexed." %
118 (X.shape[0], X.shape[1], Y.shape[0]))
119 elif X.shape[1] != Y.shape[1]:
120 raise ValueError("Incompatible dimension for X and Y matrices: "
121 "X.shape[1] == %d while Y.shape[1] == %d" % (
--> 122 X.shape[1], Y.shape[1]))
X.shape = (1667, 26421)
Y.shape = (112, 100)
123
124 return X, Y
125
126
ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 26421 while Y.shape[1] == 100
有人能指出我到底做错了什么吗?
答案 0 :(得分:2)
评分功能的语法不正确。您只需要为分类器传递predicted
和truth
值。这就是你声明自定义评分函数的方法:
def my_scorer(y_true, y_predicted):
error = math.sqrt(np.mean((y_true - y_predicted)**2))
return error
然后您可以使用Sklearn中的make_scorer
函数将其传递给GridSearch。请务必相应地设置greater_is_better
属性:
score_func
是否为分数函数(默认),意味着高是好还是损失函数,意味着低是好的。在后一种情况下,记分员对象将对score_func
的结果进行符号翻转。
我假设您正在计算错误,因此此属性应设置为False
,因为错误越少越好:
from sklearn.metrics import make_scorer
my_func = make_scorer(my_scorer, greater_is_better=False)
然后将其传递给GridSearch:
GridSearchCV(estimator=my_clf, param_grid=param_grid, scoring=my_func)
my_clf
是您的分类器。
还有一件事,我不认为GridSearchCV
正是您正在寻找的。它基本上接受火车和测试分裂形式的数据。但在这里,您只想转换输入数据。您需要使用Pipeline in Sklearn。查看结合PCA和GridSearchCV的示例mentioned here。