我想聚集大量数据样本,为此我在MATLAB中使用k表示函数。问题是它返回一个矩阵,其中所有数据按我指定的簇数排序。
我如何知道哪个群集最佳。
我认为如果我在每个群集中获得相同数量的元素是最佳的,但这种情况从未发生过。相反,它可以继续为我输入的任何数字聚类数据。
请帮忙......
答案 0 :(得分:0)
我读到并且我认为对此的答案可能是: - 在kmeans中,我们试图根据数据来分配数据,因为理论上我们最好的数据集是每个分区具有相同数量的数据。
我使用kmeans ++这是一个比kmeans更好的算法,因为它不会初始化一个随机值,然后迭代分区数,直到分区的大小几乎相等。这是一个近似的数字,因为3我得到2180,729,1219和4我得到30,2422,1556,120因此我选择3作为我的最终答案............ < / p>