应用错误收集

我正在尝试使用kmeans将相似的文档聚集在一起。

我正在使用NLTK的KMeans。

当我只集群3个文档时，只需不到5秒。但是，一旦我添加了第四个文件，它就没有完成（我在10分钟后将其删除）。

当有4个文件时，矢量大小约为1000.矢量也很稀疏，但我有8个RAM，所以我并不担心。 1000不应该那么多。

任何人都有任何想法为什么它会在5秒内解决3个文件，但无法解决4个文件......至少在放弃前10分钟内？当我投入生产时，理论上一次只能集群300或400个文件。

我正在考虑尝试使用不同的kmeans库来查看NLTK实现是否很弱，但如果我遇到问题，我不想浪费我的努力。

谢谢大家。