使用Kullback发散的角色分歧

时间:2011-08-31 17:36:42

标签: algorithm machine-learning

我正在尝试计算字符串中字符的差异,但我真的不知道如何将Kullback Divergence算法应用于这样的问题。请任何人都可以解释我可以使用的KLD算法来解决这样的问题。

由于

1 个答案:

答案 0 :(得分:3)

KL分歧是一种度量,它可以为您提供某个分布与另一个分布之间的伪距离,假设它们具有相似的域(就像它们将概率分配给类似的东西一样...... bernoulli分布给出了0,1个硬币翻转的概率,正常给出实数等)。

KL(分布A,分布B)可以衡量,当我期待从B中采样的东西时,从A获取样本会有多么惊讶。

它不是真正的距离度量,因为它不对称,即,对于[1,2,3,4,5]的域,分布A给出所有数字的相等概率,但分布B给出所有概率仅为2,然后KL(B,A)应该比KL(A,B)低很多,因为看到我的统一分布总是返回相同的数字我会有点惊讶但我会惊讶地看到我的只有2分布从[1,3,4,5]因为分布B(概率0)认为不可能。

我不清楚你是如何尝试使用KL分歧来衡量字符串之间的差异。请详细说明您的问题,以便我可以帮助您解决这个问题。

关于KL的维基百科文章 - http://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence