我正在尝试使用kmeans将相似的文档聚集在一起。
我正在使用NLTK的KMeans。
当我只集群3个文档时,只需不到5秒。但是,一旦我添加了第四个文件,它就没有完成(我在10分钟后将其删除)。
当有4个文件时,矢量大小约为1000.矢量也很稀疏,但我有8个RAM,所以我并不担心。 1000不应该那么多。
任何人都有任何想法为什么它会在5秒内解决3个文件,但无法解决4个文件......至少在放弃前10分钟内?当我投入生产时,理论上一次只能集群300或400个文件。
我正在考虑尝试使用不同的kmeans库来查看NLTK实现是否很弱,但如果我遇到问题,我不想浪费我的努力。
谢谢大家。
答案 0 :(得分:0)
我切换到Pycluster库,现在可以正常工作。