测量两个分布之间的差异

时间:2018-09-24 01:54:10

标签: statistics distribution

我有一个示例程序的距离向量。我试图量化它们的相似程度。我使用的是样本组之间的欧几里得距离(每个值都属于一个存储桶,我们逐个存储桶进行比较),效果很好。但是,对于大量样本,需要进行太多的比较。

我想知道是否存在建立索引以比较样本的有效方法。样本看起来像这样-

Sample:1 = {25 0 17 3 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:2 = {25 1 16 2 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:3 = {25 3 16 2 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}

1 个答案:

答案 0 :(得分:2)

有许多方法可以描述“两个分布之间的差异”。具体而有针对性的答案需要更多有关例如潜在的概率分布。

这全部取决于您如何定义两个分布之间的差异。给您两个想法:

  1. Kolmogorov-Smirnov test是一种非参数测试,用于测量两个累积/经验分布函数之间的“距离”。
  2. Kullback-Leibler divergence用信息论的语言来度量两个分布之间的“距离”,作为熵的变化。