我应该将哪种聚类方法用于多维数据集?

时间:2016-10-12 08:42:02

标签: multidimensional-array cluster-analysis

我正在尝试创建数据集非常不同的国家/地区(我对各国的数据从中位年龄到可支配收入,包括教育水平)。

我该如何解决这个问题?

我读了一些关于聚类的有趣论文,例如使用K-means,但似乎这些算法主要用于有两组变量,而不是像我的情况那样30,并且当变量具有可比性时(可能尽管如此,试图聚集数据中具有多样性的国家)。

我应该规范化一些数据吗?我应该只关注较少的指标来避免这种多维问题吗?首先使用光谱聚类?

非常感谢您的支持!

1 个答案:

答案 0 :(得分:0)

创建“相似性指标”。可能只是你所有测量的重量,但你可能会建立一些人口规模的修正等等。那么你只能拥有数百个国家,所以大多数蛮力方法都可行。分层聚类将是我的第一个调用点,它将告诉您数据是否固有地聚类。

如果所有数据都是定量的,则可以在0 - 1(最低国家为0,最高为1)上标准化,然后采用特征向量。然后绘制出本征空间中的前两个轴。这将为集群提供另一种视觉修复。

如果它不是聚集的,那么最好承认这一点。