我有一个示例程序的距离向量。我试图量化它们的相似程度。我使用的是样本组之间的欧几里得距离(每个值都属于一个存储桶,我们逐个存储桶进行比较),效果很好。但是,对于大量样本,需要进行太多的比较。
我想知道是否存在建立索引以比较样本的有效方法。样本看起来像这样-
Sample:1 = {25 0 17 3 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:2 = {25 1 16 2 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
Sample:3 = {25 3 16 2 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}
答案 0 :(得分:2)
有许多方法可以描述“两个分布之间的差异”。具体而有针对性的答案需要更多有关例如潜在的概率分布。
这全部取决于您如何定义两个分布之间的差异。给您两个想法: