如何从Tf-IDF向量中选择K均值的初始聚类

时间:2014-11-17 13:05:16

标签: cluster-analysis mahout k-means text-mining tf-idf

我正在使用文本群集。我想选择特定的文件(作为矢量)作为k-means的中心。

我使用Mahout为我的数据集创建了TF-IDF,我想从TFIDF向量中选择初始聚类。

任何人都知道如何在Mahout中指定初始质心?

2 个答案:

答案 0 :(得分:0)

bin / mahout kmeans
    -c 输入群集目录
    -k 从输入向量中采样的可选初始簇数

如果提供了-k参数,则会覆盖-c目录中的任何簇,并从输入向量中采样-k随机点,以成为初始簇中心。

参考:https://mahout.apache.org/users/clustering/k-means-clustering.html

答案 1 :(得分:0)

通过查看距离彼此最远的文档,一种可能是使用Cosine similarity而不是TF-IDF。像这样:

  1. 选择文件1。
  2. 从文档1中选择最远的文档2.
  3. 从文档1和2中选择最远的文档。
  4. 查看this也可能有所帮助。