GridsearchCV具有大数据集

时间:2016-08-17 06:35:21

标签: python python-3.x scikit-learn

我正在尝试使用GridSearchCV构建一个具有庞大数据集的分类器(2M记录* 500个功能并且正在增长,预计总共至少需要15M)。但是,我发现GridSearchCV.fit没有为X和Y生成生成器。问题是我没有完成任务的所有内存空间。我使用的分类器是SGDClassifier(支持partial_fit)。

在此之前,我将为GridSearchCV使用更小的数据集子集,然后使用整个数据集重新训练最佳分类器。这是使用GridSearchCV的正确方法吗?

0 个答案:

没有答案