当聚类超过3个文档时,Kmeans异常缓慢

时间:2011-12-13 02:25:00

标签: machine-learning cluster-analysis document k-means

我正在尝试使用kmeans将相似的文档聚集在一起。

我正在使用NLTK的KMeans。

当我只集群3个文档时,只需不到5秒。但是,一旦我添加了第四个文件,它就没有完成(我在10分钟后将其删除)。

当有4个文件时,矢量大小约为1000.矢量也很稀疏,但我有8个RAM,所以我并不担心。 1000不应该那么多。

任何人都有任何想法为什么它会在5秒内解决3个文件,但无法解决4个文件......至少在放弃前10分钟内?当我投入生产时,理论上一次只能集群300或400个文件。

我正在考虑尝试使用不同的kmeans库来查看NLTK实现是否很弱,但如果我遇到问题,我不想浪费我的努力。

谢谢大家。

1 个答案:

答案 0 :(得分:0)

我切换到Pycluster库,现在可以正常工作。