高维向量的最佳聚类算法

时间:2019-05-29 07:51:30

标签: python machine-learning cluster-analysis

我正在尝试对具有45个维度的一组数据点向量使用某种聚类方法。我对群集数据点还很陌生,想知道是否有人可以指出要使用的适当方法?我曾尝试使用K-Means聚类,但想知道我的数据的维数是否可能太大?

2 个答案:

答案 0 :(得分:0)

Complexity of K-means clustering is O(qknp),其中q是迭代数,k是聚类数,n是样本大小,p是维数。

您可能不想更改k。

q的大部分时间是在执行K-Means算法的过程中确定的,它在集群均值停止变化时停止。

大多数情况下,您想使用所有数据,但可能会减少样本量,这会降低结果的准确性。

您可以使用主成分分析来减少数据的维数。这导致一些(在大多数情况下很少)信息丢失。会影响您的结果。

答案 1 :(得分:0)

45尺寸不是特别高。充其量是“中等”维度,因此大多数算法可以起作用。

通常,尺寸的大小无关紧要,而是它们的预处理效果如何。如果预处理不好,则如果一个属性中的信号被另一属性中的噪声淹没,则二维可能会成为问题。

没有自动的方法来解决这个问题,否则所有的库中都会有这种方法。缩放可以有所帮助,但也可能有害。用户需要准备数据并选择参数(例如距离函数和算法)以达到理想的效果,因为没有“理想”的可计算方程。