如何在执行scikit-learn的剪影评分时修复MemoryError?

时间:2013-05-07 17:06:44

标签: memory machine-learning cluster-analysis scikit-learn

我运行聚类算法,并希望通过在scikit-learn中使用轮廓得分来评估结果。但是在scikit-learn中,它需要计算距离矩阵:distance = pairwise_distances(X,metric = metric,** kwds)

由于我的数据是300K的顺序,而我的内存是2GB,结果是内存不足。我无法评估聚类结果。

有谁知道如何克服这个问题?

1 个答案:

答案 0 :(得分:25)

silhouette_score调用中的sample_size参数设置为小于300K的某个值。使用此参数将对来自X的数据点进行采样,并计算silhouette_score上的数据点而不是整个数组。