使用fastcluster模块在Python中进行新闻聚类

时间:2013-10-17 16:03:24

标签: python scipy hierarchical-clustering

我正在尝试用Python编写新闻聚合器。我接受新闻文章,制作术语 - 文档矩阵,然后在 scipy fascluster 模块的帮助下使用余弦相似性对它们进行聚类:

distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")

当我有大约30个新闻来源时它很有用。但是,当我放置70个不同的来源时,它并不能很好地聚类。我试图规范化术语 - 文档矩阵,我也尝试了tf-idf矩阵,但我仍然有相同的结果。我知道如何解决这个问题?

0 个答案:

没有答案