应用错误收集

有两个与您的问题相关的概念，您应该单独考虑。

相似度量：

独立于您的评分机制，您应找到最适合您数据的相似性度量。它可以是欧几里德距离（不适合1500维空间），余弦（基于点积）距离，或哈密顿距离（假设您的输入要素完全独立，很少是这种情况）。

你的距离函数可以继续使用，你应该找到一个对你的数据有意义的函数。

评分机制：

你在问题中提到 total_distance_of_vectors ，这可能不是你想要的。如果n >> m，几乎可以肯定n个向量的总距离大于m个向量的总距离。

您正在寻找的内容很可能是您的成员之间距离的平均值。那么，根据天气你希望你的平均值对异常值是否敏感，你可以得到距离的平均值或平均距离的平均值。

如果你想深入挖掘，你也可以得到两组中距离的均值和方差，并比较分布。