我正在使用scikit-learn和Kmeans进行实验。 它速度快但需要多个簇作为参数。 我想尝试的是根据文档的数量自动计算出集群数量。
我之前使用的基于哈希的近邻算法(ssdeep)可以根据距离获得相似性聚类,如何自动获得k均值的聚类大小。KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
name="k-means++", data=data)
我想自动计算cluster_count,这可能吗?我的测试数据集是来自20_newsgroup的随机文件的集合,没有预先分类到文件夹,单个文件夹,所以没有标签。