标签: text scikit-learn cluster-computing hierarchical-clustering
我正在尝试对基于平滑的Dirichlet priors bigrams的每个我定义语言模型的文本进行聚类,所以我想使用k-means算法来做到这一点,使用KL发散可能作为聚类函数。有没有指导呢?我能使用经典的相似性度量之一,如余弦相似度吗?
提前谢谢