Question

我执行了scikit-learn k-means算法并获得了生成的质心。我有一个新文档（不在初始集合中），我想计算每个质心和新文档之间的距离，以便知道它应放在哪个集群中。

是否有内置函数来实现，或者我应该手动编写相似度函数吗？

Answer 1

您可以使用方法predict为矩阵X中的每个样本获取最近的聚类：

from sklearn.cluster import KMeans

model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)