我正在尝试创建数据集非常不同的国家/地区(我对各国的数据从中位年龄到可支配收入,包括教育水平)。
我该如何解决这个问题?
我读了一些关于聚类的有趣论文,例如使用K-means,但似乎这些算法主要用于有两组变量,而不是像我的情况那样30,并且当变量具有可比性时(可能尽管如此,试图聚集数据中具有多样性的国家)。
我应该规范化一些数据吗?我应该只关注较少的指标来避免这种多维问题吗?首先使用光谱聚类?
非常感谢您的支持!
答案 0 :(得分:0)
创建“相似性指标”。可能只是你所有测量的重量,但你可能会建立一些人口规模的修正等等。那么你只能拥有数百个国家,所以大多数蛮力方法都可行。分层聚类将是我的第一个调用点,它将告诉您数据是否固有地聚类。
如果所有数据都是定量的,则可以在0 - 1(最低国家为0,最高为1)上标准化,然后采用特征向量。然后绘制出本征空间中的前两个轴。这将为集群提供另一种视觉修复。
如果它不是聚集的,那么最好承认这一点。