我运行聚类算法,并希望通过在scikit-learn中使用轮廓得分来评估结果。但是在scikit-learn中,它需要计算距离矩阵:distance = pairwise_distances(X,metric = metric,** kwds)
由于我的数据是300K的顺序,而我的内存是2GB,结果是内存不足。我无法评估聚类结果。
有谁知道如何克服这个问题?
答案 0 :(得分:25)
将silhouette_score
调用中的sample_size
参数设置为小于300K的某个值。使用此参数将对来自X
的数据点进行采样,并计算silhouette_score
上的数据点而不是整个数组。