如何选择合适的聚类算法

时间:2013-11-26 17:08:40

标签: algorithm cluster-analysis

我即将使用1000维度的特征向量进行聚类。 也就是说,特征向量如下所示。 a = {255,2334,436,...,5284}; b = {235,434,63,...,844}; ... 我还有度量来衡量2个特征向量之间的距离。 但是我无法弄清楚哪种聚类算法与此特征向量聚类最好,因为由于高维度,我无法看到这些向量的分布。 任何人都知道可以看到这些分布的方法, 或者在不知道数据分布的情况下,如何选择最佳的聚类算法? 提前谢谢。

1 个答案:

答案 0 :(得分:1)

您应该将标记数据拆分为训练集和测试集。使用训练集训练分类器,您可以根据标记的测试集测量其性能。

作为分类器,first try可以是SVC。

为了获得更好的可靠性,您应该针对不同的训练和测试集重做此过程。这称为cross-validation