在张量流概率中构造基于离散表的CPD?

时间:2019-05-23 08:40:19

标签: probability-distribution tensorflow-probability

我正在尝试构造具有几个离散随机变量和条件概率的贝叶斯网络的最简单示例(科勒书中的“学生网络”,请参阅1

尽管有点笨拙,但我设法使用pymc3建立了这个网络。特别是,在pymc3中创建CPD并不是那么简单,请参见下面的代码段:

import pymc3 as pm

...

with pm.Model() as basic_model:
    # parameters for categorical are indexed as [0, 1, 2, ...]
    difficulty = pm.Categorical(name='difficulty', p=[0.6, 0.4])

    intelligence = pm.Categorical(name='intelligence', p=[0.7, 0.3])

    grade = pm.Categorical(name='grade',
        p=pm.math.switch(
            theano.tensor.eq(intelligence, 0),
                pm.math.switch(
                    theano.tensor.eq(difficulty, 0),
                        [0.3, 0.4, 0.3],  # I=0, D=0
                        [0.05, 0.25, 0.7]   # I=0, D=1
                    ),
                    pm.math.switch(
                        theano.tensor.eq(difficulty, 0),
                            [0.9, 0.08, 0.02],  # I=1, D=0
                            [0.5, 0.3, 0.2]  # I=1, D=1
                    )
            )
        )

    letter = pm.Categorical(name='letter', p=pm.math.switch(
    ...

但是我不知道如何使用tensoflow-probability(版本:tfp-nightly==0.7.0.dev20190517tf-nightly-2.0-preview==2.0.0.dev20190517)构建该网络

对于无条件的二进制变量,可以使用分类分布,例如

from tensorflow_probability import distributions as tfd
from tensorflow_probability import edward2 as ed

difficulty = ed.RandomVariable(
                 tfd.Categorical(
                     probs=[0.6, 0.4],
                     name='difficulty'
                 )
             )

但是如何构建CPD?

在张量流概率中几乎没有相关的类/方法(在tensorflow_probability/python/distributions/deterministic.py或已过时的ConditionalDistribution中),但是文档却很少(一个人需要对tfp有深入的了解)。

---更新问题---

克里斯的答案是一个很好的起点。但是,即使对于非常简单的二变量模型,情况仍然不清楚。

这很好用:

jdn = tfd.JointDistributionNamed(dict(
    dist_x=tfd.Categorical([0.2, 0.8], validate_args=True),
    dist_y=lambda dist_x: tfd.Bernoulli(probs=tf.gather([0.1, 0.9], indices=dist_x), validate_args=True)
))
print(jdn.sample(10))

但是这个失败了

jdn = tfd.JointDistributionNamed(dict(
    dist_x=tfd.Categorical([0.2, 0.8], validate_args=True),
    dist_y=lambda dist_x: tfd.Categorical(probs=tf.gather_nd([[0.1, 0.9], [0.5, 0.5]], indices=[dist_x]))
))
print(jdn.sample(10))

(出于学习目的,我试图在第二个示例中明确地对类别进行建模)

-更新:已解决---

很显然,最后一个示例错误地使用了tf.gather_nd而不是tf.gather,因为我们只想基于dist_x外显子组来选择第一行或第二行。该代码现在可以使用:

jdn = tfd.JointDistributionNamed(dict(
    dist_x=tfd.Categorical([0.2, 0.8], validate_args=True),
    dist_y=lambda dist_x: tfd.Categorical(probs=tf.gather([[0.1, 0.9], [0.5, 0.5]], indices=[dist_x]))
))
print(jdn.sample(10))

1 个答案:

答案 0 :(得分:0)

棘手的事情,大概是它在PyMC中比预期的要微妙的原因是-与矢量化编程中的几乎所有内容一样-处理形状。

在TF / TFP中,解决这一问题的(IMO)最佳方法是使用新的TFP JointDistribution{Sequential,Named,Coroutine}类之一。这些可以让您自然地表示分层的PGM模型,然后从中进行采样,评估对数概率等。

我为整个学生网络准备了一个演示所有3种方法的colab笔记本:https://colab.research.google.com/drive/1D2VZ3OE6tp5pHTsnOAf_7nZZZ74GTeex

请注意,使用tf.gather和tf.gather_nd来管理各种二进制和分类切换的矢量化。

看看,如果您有任何疑问,请告诉我!