是否有任何建议的策略在庞大的数据集上运行gridsearchcv?

时间:2016-03-09 06:07:01

标签: python scikit-learn cross-validation svc grid-search

我正在尝试在大小约为.3百万条记录的庞大数据集上评估svm。这是一个具有23个功能的多类问题。目前gridsearchcv需要很长时间来迭代参数。有什么策略来加速这个吗?我想.3百万条记录是一个合理的数字,我很困惑,CPU使用率不超过30%,RAM使用率限制在50%。 我按照文档中的建议将n_jobs设置为-1,将pre_dispatch设置为1。没有什么变化。根据我的输入,我期待总共24次迭代。这是我的示例代码

from sklearn.multiclass import OneVsRestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn import svm
model_to_set = OneVsRestClassifier(svm.SVC())

parameters = {
    "estimator__C": [1,2,4,8],
    "estimator__kernel": ["poly","rbf","linear"],
    "estimator__degree":[1, 2, 3, 4],
}

model_tunning = GridSearchCV(model_to_set, param_grid=parameters,n_jobs=-1,pre_dispatch=1,
                             scoring='f1')

model_tunning.fit(mat[1:23], mat[0])

感谢任何帮助。

0 个答案:

没有答案