计算多个成对的分布/直方图之间的总距离

时间:2019-04-22 00:12:24

标签: histogram distance distribution loss-function multivariate-testing

我不确定应该使用什么术语来解决问题,因此我举一个例子。

我有2组测量值(每组6个经验分布= D1-6)描述了同一系统的2种不同状态(蓝色和红色)。这些分布可能是多峰分布,偏态分布,欠采样分布以及其他一些不可预测的奇怪形式。

蓝色是我的参考,对于所有成对的分布,我想使RED尽可能接近BLUE。为此,我将使用我的RED系统的参数并监视RED集D1-6的测量试图使其与BLUE完美重叠。

我知道我可以使用Jensen-Shannon或Bhattacharyya距离来评估2个分布之间的距离(例如RED-D1和BLUE-D1)。但是,我不知道这里是否存在可以用于获取所有分布之间的全局距离的其他度量(即,量化两组成对分布之间的全局失配)。是这样吗?

我正在考虑建立一个经验评分函数,该函数将使用所有成对的Jensen-Shannon距离,但是我还没有更好的主意。我相信我不能只求和所有JS距离,因为在这两种假设的不同情况下,我会得到相似的分数:

  
      
  1. D1-6像我的图像一样分布

  2.   
  3. RED-D1-5更适合BLUE-D1-5,但是 RED-D6与BLUE-D6相比有位移

  4.   

那是错误的,因为我会错过系统的一项重要功能。考虑到这两种情况,最好像我的图像一样分发D1-6(解决方案1)。

每个分布之间的配对匹配同等重要,并且应同样加权(即BLUE-D1和RED-D1之间的匹配与BLUE-D2和RED-D2之间的匹配一样重要,等等)。

D1-3的给定范围DOM1为[0,5],而D4-6的给定范围DOM2为[50,800]。菱形代表BLUE和RED分布的加权均值。

enter image description here

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

我最终使用了所有成对地球移动者的距离之和(EMD,https://en.wikipedia.org/wiki/Earth_mover%27s_distance,也称为Wasserstein度量)作为所有成对分布之间距离的全局度量。这以适当的方式描述了系统两个状态之间的差异或相似性。

EMD是在python中的“ pyemd”包或使用scipy:https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wasserstein_distance.html来实现的。