我正在使用文本群集。我想选择特定的文件(作为矢量)作为k-means的中心。
我使用Mahout为我的数据集创建了TF-IDF,我想从TFIDF向量中选择初始聚类。
任何人都知道如何在Mahout中指定初始质心?
答案 0 :(得分:0)
bin / mahout kmeans
-c 输入群集目录
-k 从输入向量中采样的可选初始簇数
如果提供了-k参数,则会覆盖-c目录中的任何簇,并从输入向量中采样-k随机点,以成为初始簇中心。
参考:https://mahout.apache.org/users/clustering/k-means-clustering.html
答案 1 :(得分:0)
通过查看距离彼此最远的文档,一种可能是使用Cosine similarity而不是TF-IDF。像这样:
查看this也可能有所帮助。