用python聚类文本

时间:2013-07-27 09:45:12

标签: python similarity hierarchical-clustering

我决定玩一些有相似之处和聚类文本。

我已经创建了相似性的tf-idf和symmatrix矩阵。现在我想实现一些集群组合。

我做了一项研究,我找到了hcluster和k-means库。

哪些在准确性方面更好?即使没有现成的库,你知道更好的方法吗?如果我知道算法,我可以编写代码。

此外,这种方式是O(n ^ 2)。如果我想牺牲一点准确性来赢得计算时间,你有什么建议吗?

0 个答案:

没有答案