Question

我有一个示例程序的距离向量。我试图量化它们的相似程度。我使用的是样本组之间的欧几里得距离（每个值都属于一个存储桶，我们逐个存储桶进行比较），效果很好。但是，对于大量样本，需要进行太多的比较。

我想知道是否存在建立索引以比较样本的有效方法。样本看起来像这样-

Sample:1 = {25 0 17 3 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:2 = {25 1 16 2 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:3 = {25 3 16 2 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}

Answer 1

有许多方法可以描述“两个分布之间的差异”。具体而有针对性的答案需要更多有关例如潜在的概率分布。

这全部取决于您如何定义两个分布之间的差异。给您两个想法：

Kolmogorov-Smirnov test是一种非参数测试，用于测量两个累积/经验分布函数之间的“距离”。
Kullback-Leibler divergence用信息论的语言来度量两个分布之间的“距离”，作为熵的变化。

测量两个分布之间的差异

1 个答案: