在Python中使用链接进行内存高效的凝聚聚类

时间:2015-08-30 05:25:04

标签: python machine-learning out-of-memory scikit-learn hierarchical-clustering

我想在地图上聚集2d点(纬度/经度)。点数为400K,因此输入矩阵为400k x 2。

当我运行scikit-learn's Agglomerative Clustering时,内存耗尽,内存大约为500GB。

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=Memory(cachedir=None), connectivity=None, n_components=None, compute_full_tree='auto', linkage='ward', pooling_func=<function mean at 0x2b8085912398>)[source]

我还尝试了memory = Memory(cachedir)选项但没有成功。有没有人有建议(另一个库或更改scikit代码),以便我可以对数据运行聚类算法?

我已在小型数据集上成功运行算法。

0 个答案:

没有答案