应用错误收集

时间：2019-05-29 07:51:30

标签： python machine-learning cluster-analysis

我正在尝试对具有45个维度的一组数据点向量使用某种聚类方法。我对群集数据点还很陌生，想知道是否有人可以指出要使用的适当方法？我曾尝试使用K-Means聚类，但想知道我的数据的维数是否可能太大？

答案 0 :(得分：0)

Complexity of K-means clustering is O(qknp)，其中q是迭代数，k是聚类数，n是样本大小，p是维数。

您可能不想更改k。

q的大部分时间是在执行K-Means算法的过程中确定的，它在集群均值停止变化时停止。

大多数情况下，您想使用所有数据，但可能会减少样本量，这会降低结果的准确性。

您可以使用主成分分析来减少数据的维数。这导致一些（在大多数情况下很少）信息丢失。会影响您的结果。

答案 1 :(得分：0)

45尺寸不是特别高。充其量是“中等”维度，因此大多数算法可以起作用。

通常，尺寸的大小无关紧要，而是它们的预处理效果如何。如果预处理不好，则如果一个属性中的信号被另一属性中的噪声淹没，则二维可能会成为问题。

没有自动的方法来解决这个问题，否则所有的库中都会有这种方法。缩放可以有所帮助，但也可能有害。用户需要准备数据并选择参数（例如距离函数和算法）以达到理想的效果，因为没有“理想”的可计算方程。