应用错误收集

时间：2016-10-12 08:42:02

标签： multidimensional-array cluster-analysis

我正在尝试创建数据集非常不同的国家/地区（我对各国的数据从中位年龄到可支配收入，包括教育水平）。

我该如何解决这个问题？

我读了一些关于聚类的有趣论文，例如使用K-means，但似乎这些算法主要用于有两组变量，而不是像我的情况那样30，并且当变量具有可比性时（可能尽管如此，试图聚集数据中具有多样性的国家）。

我应该规范化一些数据吗？我应该只关注较少的指标来避免这种多维问题吗？首先使用光谱聚类？

非常感谢您的支持！

答案 0 :(得分：0)

创建“相似性指标”。可能只是你所有测量的重量，但你可能会建立一些人口规模的修正等等。那么你只能拥有数百个国家，所以大多数蛮力方法都可行。分层聚类将是我的第一个调用点，它将告诉您数据是否固有地聚类。

如果所有数据都是定量的，则可以在0 - 1（最低国家为0，最高为1）上标准化，然后采用特征向量。然后绘制出本征空间中的前两个轴。这将为集群提供另一种视觉修复。

如果它不是聚集的，那么最好承认这一点。