我有两个(不同长度)数字列表。 使用Python,我想用10个箱子来计算直方图。 然后我想用标准内核(高斯内核,均值= 0,sigma = 1)平滑这两个直方图 然后我想计算这两个平滑直方图之间的KL距离。 我发现了一些关于直方图计算的代码,但不确定如何应用标准内核进行平滑处理,然后如何计算KL距离。 请帮忙。
答案 0 :(得分:6)
为了计算直方图,您可以使用numpy.histogram()和高斯平滑scipy.ndimage.filters.gaussian_filter()。可以找到Kullback-Leibler分歧代码here。
计算所需计算的方法如下所示:
import numpy as np
from scipy.ndimage.filters import gaussian_filter
def kl(p, q):
p = np.asarray(p, dtype=np.float)
q = np.asarray(q, dtype=np.float)
return np.sum(np.where(p != 0, p * np.log(p / q), 0))
def smoothed_hist_kl_distance(a, b, nbins=10, sigma=1):
ahist, bhist = (np.histogram(a, bins=nbins)[0],
np.histogram(b, bins=nbins)[0])
asmooth, bsmooth = (gaussian_filter(ahist, sigma),
gaussian_filter(bhist, sigma))
return kl(asmooth, bsmooth)