我执行了scikit-learn k-means算法并获得了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心和新文档之间的距离,以便知道它应放在哪个集群中。
是否有内置函数来实现,或者我应该手动编写相似度函数吗?
答案 0 :(得分:1)
您可以使用方法predict
为矩阵X
中的每个样本获取最近的聚类:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)