我正在尝试对具有45个维度的一组数据点向量使用某种聚类方法。我对群集数据点还很陌生,想知道是否有人可以指出要使用的适当方法?我曾尝试使用K-Means聚类,但想知道我的数据的维数是否可能太大?
答案 0 :(得分:0)
Complexity of K-means clustering is O(qknp),其中q是迭代数,k是聚类数,n是样本大小,p是维数。
您可能不想更改k。
q的大部分时间是在执行K-Means算法的过程中确定的,它在集群均值停止变化时停止。
大多数情况下,您想使用所有数据,但可能会减少样本量,这会降低结果的准确性。
您可以使用主成分分析来减少数据的维数。这导致一些(在大多数情况下很少)信息丢失。会影响您的结果。
答案 1 :(得分:0)
45尺寸不是特别高。充其量是“中等”维度,因此大多数算法可以起作用。
通常,尺寸的大小无关紧要,而是它们的预处理效果如何。如果预处理不好,则如果一个属性中的信号被另一属性中的噪声淹没,则二维可能会成为问题。
没有自动的方法来解决这个问题,否则所有的库中都会有这种方法。缩放可以有所帮助,但也可能有害。用户需要准备数据并选择参数(例如距离函数和算法)以达到理想的效果,因为没有“理想”的可计算方程。