应用错误收集

我正在使用scikit-learn和Kmeans进行实验。它速度快但需要多个簇作为参数。我想尝试的是根据文档的数量自动计算出集群数量。

我之前使用的基于哈希的近邻算法（ssdeep）可以根据距离获得相似性聚类，如何自动获得k均值的聚类大小。

KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
          name="k-means++", data=data)

我想自动计算cluster_count，这可能吗？我的测试数据集是来自20_newsgroup的随机文件的集合，没有预先分类到文件夹，单个文件夹，所以没有标签。