标签: cluster-analysis mahout
我目前正在Mahout上运行各种不同语料库的kmeans聚类算法,范围从2K-250K文档开始。
我注意到无论我选择哪个k值,群集的相对大小似乎都被归一化到相同的数量级。
我的意思是,如果我将k = 10的100K文档聚类,我将获得10个大小为10K的聚类。如果我选择k = 100,我会得到100个簇,大约1K大小。这种效果发生在我运行的所有不同语料库中。
这是kmeans工作方式的一部分,我可以改变一些设置,或者某种方式我的数据结果?
感谢您的帮助!