Question

我正在尝试在大小约为.3百万条记录的庞大数据集上评估svm。这是一个具有23个功能的多类问题。目前gridsearchcv需要很长时间来迭代参数。有什么策略来加速这个吗？我想.3百万条记录是一个合理的数字，我很困惑，CPU使用率不超过30％，RAM使用率限制在50％。我按照文档中的建议将n_jobs设置为-1，将pre_dispatch设置为1。没有什么变化。根据我的输入，我期待总共24次迭代。这是我的示例代码

from sklearn.multiclass import OneVsRestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn import svm
model_to_set = OneVsRestClassifier(svm.SVC())

parameters = {
    "estimator__C": [1,2,4,8],
    "estimator__kernel": ["poly","rbf","linear"],
    "estimator__degree":[1, 2, 3, 4],
}

model_tunning = GridSearchCV(model_to_set, param_grid=parameters,n_jobs=-1,pre_dispatch=1,
                             scoring='f1')

model_tunning.fit(mat[1:23], mat[0])

感谢任何帮助。

是否有任何建议的策略在庞大的数据集上运行gridsearchcv？

0 个答案: