用于KNN和(大)稀疏矩阵的GridSearchCV导致MemoryError

时间:2018-10-18 06:47:44

标签: python memory scikit-learn knn tf-idf

我正在scikit-learn中使用参数GridSearchCVKNeighborsClassifier和稀疏矩阵格式的18000行数据集进行参数调整-包括使用TfIdfVectorizer生成的文本特征(使用min_df = 50,从而将维度减少到9230个字)。网格搜索运行了一段时间,但是使用MemoryError进行了多次迭代后崩溃。网格搜索的参数值为n_neighbors = 1、3、10。我认为当此参数的值为10时会发生崩溃。是否有任何办法(除了使用较低的值)来避免耗尽所有内存?是10被认为是此类问题的“高”值吗?

0 个答案:

没有答案