我正在使用carrot2来集群一组500封电子邮件。我正在使用carrot2提供的BisectingKMeans算法。在同一数据集上,当我指定k = 9时,只生成6个,当我让它运行8个集群时,生成7个 - 但是当我给10个集群运行时,所有10个集合都会生成。 有人可以帮我弄清楚这背后的原因吗?
答案 0 :(得分:0)
我已经查看了代码,看起来这种行为是由群集拆分例程中的bug引起的。我已经向Carrot2的主线提交了fix,这使得生成的集群的数量更加可预测。您可以使用Carrot2 build server中的修复程序下载二进制文件。