应用错误收集

我有近30种不同的数据集。它们每个都包含不同数量的变量，维度大约为46。

我正在尝试测量这些数据集之间的距离，而不是每个数据集本身内的项目之间的距离。我的建议是找到每个数据集的均值，并使用欧几里德或马哈拉诺比斯距离来找到联系并构建我的结构。

我已经知道了簇的数量，因为它是由数据集的数量定义的。我只需要找到我的数据集之间的距离。

我这样做的方式是否足够好，还是应该找到除了更好地代表每个数据集的平均值之外的指标？这些距离函数是否适合测量？是否有必要进行任何归一化或相异度计算？

查看数据集均值的距离是否足够好完全取决于您的数据集。一般来说，平均值对异常值敏感。这意味着，如果您的数据集具有与其他数据集极为不同的几个值，则它们将对均值产生显着影响（即，它们会将其拉向它们）。这可能是期望的行为，但通常不是。所以，如果你的平均值都非常相似，那么平均值是一个不错的选择。

以下是其他一些选项：

单链接 - 两个群集之间的距离是两个群集中彼此最接近的点之间的距离。如果您关心＆＃34;最佳案例＆＃34;接近度，即数据集可能有多相似。

An illustration of single-link distance.

完整链接 - 两个群集之间的距离是两个群集中距离彼此最远的点之间的距离。如果你关心＆＃34;最坏情况＆＃34;这很有用。接近度，即数据集可能有多么不同。

An illustration of complete-link distance

来自this website的图片。

另一个可能相关的考虑因素是计算均值通常可以比单链接或完整链接更快地执行。

如果捕获有关数据集中变化量的信息非常重要，则可以使用更复杂的距离指标。例如，您可以在标准偏差中测量距离（尽管这会变得棘手，因为不同的数据集将具有不同的标准偏差）。