应用错误收集

如何从Tf-IDF向量中选择K均值的初始聚类

时间：2014-11-17 13:05:16

标签： cluster-analysis mahout k-means text-mining tf-idf

我正在使用文本群集。我想选择特定的文件（作为矢量）作为k-means的中心。

我使用Mahout为我的数据集创建了TF-IDF，我想从TFIDF向量中选择初始聚类。

任何人都知道如何在Mahout中指定初始质心？

2 个答案:

答案 0 :(得分：0)

bin / mahout kmeans
-c 输入群集目录
-k 从输入向量中采样的可选初始簇数

如果提供了-k参数，则会覆盖-c目录中的任何簇，并从输入向量中采样-k随机点，以成为初始簇中心。

参考：https://mahout.apache.org/users/clustering/k-means-clustering.html

答案 1 :(得分：0)

通过查看距离彼此最远的文档，一种可能是使用Cosine similarity而不是TF-IDF。像这样：

选择文件1。
从文档1中选择最远的文档2.
从文档1和2中选择最远的文档。
等

查看this也可能有所帮助。