应用错误收集

我目前正在Mahout上运行各种不同语料库的kmeans聚类算法，范围从2K-250K文档开始。

我注意到无论我选择哪个k值，群集的相对大小似乎都被归一化到相同的数量级。

我的意思是，如果我将k = 10的100K文档聚类，我将获得10个大小为10K的聚类。如果我选择k = 100，我会得到100个簇，大约1K大小。这种效果发生在我运行的所有不同语料库中。

这是kmeans工作方式的一部分，我可以改变一些设置，或者某种方式我的数据结果？

感谢您的帮助！