如何计算文档与每个质心之间的距离(k-means)?

时间:2016-10-31 01:19:44

标签: python machine-learning scikit-learn cluster-analysis k-means

我执行了scikit-learn k-means算法并获得了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心和新文档之间的距离,以便知道它应放在哪个集群中。

是否有内置函数来实现,或者我应该手动编写相似度函数吗?

1 个答案:

答案 0 :(得分:1)

您可以使用方法predict为矩阵X中的每个样本获取最近的聚类:

from sklearn.cluster import KMeans

model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)