我正在尝试用Python编写新闻聚合器。我接受新闻文章,制作术语 - 文档矩阵,然后在 scipy 和 fascluster 模块的帮助下使用余弦相似性对它们进行聚类:
distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")
当我有大约30个新闻来源时它很有用。但是,当我放置70个不同的来源时,它并不能很好地聚类。我试图规范化术语 - 文档矩阵,我也尝试了tf-idf矩阵,但我仍然有相同的结果。我知道如何解决这个问题?