是否有效地聚类文本文档?我想到了K-Means,但它似乎太费时了。有人能为我提供一种有效的方法吗?
答案 0 :(得分:1)
clustering algorithm取决于您的数据集,您是否要在java中编写算法来聚类文档? ,您可以使用weka代替重新发明轮子并在数据集上尝试其他聚类算法。
答案 1 :(得分:1)
如果K-Means实际上完成了工作,而且似乎很慢,那么为什么不尝试让它更快?我使用的方法是random-pausing。
通常情况下,在没有更改基本算法的情况下,存在大量加速空间,在代码中您不会认为是一个问题。 Here's an example.