Python:计算N个多元正态分布的值的似然性

时间:2017-01-02 13:11:39

标签: python performance scipy normal-distribution

所以我有一组N个多元正态分布,它们都具有相同的协方差。对于这些分布中的每一个,我想计算得到值x的可能性。

对于单个分布和多个“x”值,这是微不足道的

from scipy.stats import multivariate_normal
import numpy as np

cov = [[1 ,0.1],[0.1 ,1]]
mean = [0,0]
Values = np.random.multivariate_normal([0,0],cov,samp)
print  multivariate_normal.pdf(Values, mean, cov)

现在,如果我们改变这一点,并假设我们只有一个值要检查,但是多次意味着每次都有相同的协方差。如下所示(当然在实际情况中,每次迭代的均值不同)

means = [mean]*samples
Value = Values[0,:]

L = []
for iMean in means:
    L.append(multivariate_normal.pdf(Value, iMean, cov))

print L

有更好的方法吗?如果存在任何差异,则假设协方差矩阵不相关也是允许的,尽管一般解决方案更可取。

1 个答案:

答案 0 :(得分:1)

您可以先计算所有分布的平方马哈拉诺比斯距离。 https://en.wikipedia.org/wiki/Mahalanobis_distance

然后计算可能性密度。

* https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.multivariate_normal.html * https://en.wikipedia.org/wiki/Multivariate_normal_distribution

通过使用numpy数组,可以避免慢速python循环。 我将此添加到您的示例中:

from scipy.stats import multivariate_normal
import numpy as np

cov = [[1 ,0.5],[0.5 ,1]]
mean = [2,2]

samples = 10
means = [mean]*samples

Value = (3,2.5)

L = []
for iMean in means:
    L.append(multivariate_normal.pdf(Value, iMean, cov))



mean_array = np.array(means)
value_array = np.array(Value).astype(np.float)
cov_array = np.array(cov)
inv_cov_array = np.linalg.inv(cov_array)
dim = cov_array.shape[0]

diffs = value_array-mean_array
maha_distances = np.sum(diffs.transpose()*np.dot(inv_cov_array,diffs.transpose()),axis=0)    
denominator = 1/np.sqrt((2*np.pi)**dim*np.linalg.det(cov_array))

l = denominator * np.exp(-0.5*maha_distances)

res_dif = np.array(L) - l
print res_dif