我正在尝试在大小约为.3百万条记录的庞大数据集上评估svm。这是一个具有23个功能的多类问题。目前gridsearchcv需要很长时间来迭代参数。有什么策略来加速这个吗?我想.3百万条记录是一个合理的数字,我很困惑,CPU使用率不超过30%,RAM使用率限制在50%。 我按照文档中的建议将n_jobs设置为-1,将pre_dispatch设置为1。没有什么变化。根据我的输入,我期待总共24次迭代。这是我的示例代码
from sklearn.multiclass import OneVsRestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn import svm
model_to_set = OneVsRestClassifier(svm.SVC())
parameters = {
"estimator__C": [1,2,4,8],
"estimator__kernel": ["poly","rbf","linear"],
"estimator__degree":[1, 2, 3, 4],
}
model_tunning = GridSearchCV(model_to_set, param_grid=parameters,n_jobs=-1,pre_dispatch=1,
scoring='f1')
model_tunning.fit(mat[1:23], mat[0])
感谢任何帮助。