我在pymc2中有以下模型:
import pymc
from scipy.stats import gamma
alpha = pymc.Uniform('alpha', 0.01, 2.0)
scale = pymc.Uniform('scale', 1.0, 4.0)
@pymc.deterministic(plot=False)
def beta(scale=scale):
return 1.0 / scale
@pymc.potential
def p_factor(alpha=alpha, scale=scale, lmin=lmin, n=len(sample)):
dist = gamma(alpha, loc=0., scale=scale)
fp = 1.0 - dist.cdf(lmin)
return -(n+1)*np.log(fp)
obs = pymc.Gamma("obs", alpha=alpha, beta=beta, value=sample, observed=True)
该模型的物理背景是luminosity function of galaxies(LF),即星系具有光度L的概率。对于某些类型的星系,LF只是伽马函数。数据截断的潜在原因,因为星系调查通常会错过很大一部分目标,特别是那些低亮度的目标。在此模型中,我会遗漏lmin
此方法的详细信息可在this paper by Kelly et al。
中找到此模型有效:我在模型上运行MAP
和MCMC
,我可以从模拟数据alpha
中恢复参数scale
和sample
,随着lmin
的增长,不确定性增加。
现在我想插入高斯测量误差。为简单起见,所有数据都具有相同的精度。我也没有修改包含错误的可能性。
alpha = pymc.Uniform('alpha', 0.01, 2.0)
scale = pymc.Uniform('scale',1.0, 4.0)
sig = 0.1
tau = math.pow(sig, -2.0)
@pymc.deterministic(plot=False)
def beta(scale=scale):
return 1.0 / scale
@pymc.potential
def p_factor(alpha=alpha, scale=scale, lmin=lmin, n=len(sample)):
dist = gamma(alpha, loc=0., scale=scale)
fp = 1.0 - dist.cdf(lmin)
return -(n+1) * np.log(fp)
dist = pymc.Gamma("dist", alpha=alpha, beta=beta)
obs = pymc.Normal("obs", mu=dist, tau=tau, value=sample, observed=True)
但我肯定在这里做错了,因为这个模型不起作用。
当我在此模型上运行pymc.MAP
时,我会恢复alpha
和scale
的初始值
vals = {'alpha': alpha, 'scale': scale, 'beta': beta,
'p_factor': p_factor, 'obs': obs, 'dist': dist}
M2 = pymc.MAP(vals)
M2.fit()
print M2.alpha.value, M2.scale.value
>>> (array(0.010000000006018368), array(1.000000000833973))
当我运行pymc.MCMC
时,alpha
和beta
根本没有跟踪。
M = pymc.MCMC(vals)
M.sample(10000, burn=5000)
...
M.stats()['alpha']
>>> {'95% HPD interval': array([ 0.01000001, 0.01000502]),
'mc error': 2.1442678276712383e-07,
'mean': 0.010001588137798096,
'n': 5000,
'quantiles': {2.5: 0.0100000088679046,
25: 0.010000382359859467,
50: 0.010001100377476166,
75: 0.010001668672799679,
97.5: 0.0100050194240779},
'standard deviation': 2.189828287191421e-06}
再次初始值。事实上,如果我将alpha
更改为开始,例如0.02,则alpha
的恢复值为0.02。
这是a notebook with the working model plus simulated data。
这是a notebook with the error model plus simulated data。
非常感谢任何关于完成这项工作的指导。
答案 0 :(得分:1)
似乎足以改变
dist = pymc.Gamma("dist", alpha=alpha, beta=beta)
通过
dist = pymc.Gamma("dist", alpha=alpha, beta=beta, value=sample)
采样数据是dist
的合理初始值。无论如何,我没有得到逻辑,因为其他初始值(例如零数组)带来了不再采样alpha
和beta
的问题。