k表示自动计算簇大小

时间:2012-12-03 13:15:21

标签: python c machine-learning k-means scikit-learn

我正在使用scikit-learn和Kmeans进行实验。 它速度快但需要多个簇作为参数。  我想尝试的是根据文档的数量自动计算出集群数量。

我之前使用的基于哈希的近邻算法(ssdeep)可以根据距离获得相似性聚类,如何自动获得k均值的聚类大小。

KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
          name="k-means++", data=data)

我想自动计算cluster_count,这可能吗?我的测试数据集是来自20_newsgroup的随机文件的集合,没有预先分类到文件夹,单个文件夹,所以没有标签。

0 个答案:

没有答案