我读过一篇关于使用其他分布来建模强化学习中的随机策略的文章。通常我们使用高斯分布,但有些使用Beta分布:https://en.wikipedia.org/wiki/Beta_distribution
Tensorflow中已经有一个Beta分发类,允许人们将它用作Tensors。 但是对于一些策略梯度方法,他们使用Kullback Leiber Divergence在优化过程中使用约束。
在公式中,有一个digamma函数,已在Tensorflow中实现。但是我在Tensorflow中找不到beta函数(也没有找到伽玛函数,因为它们已被链接)。仅记录伽玛或不完整的伽玛。我不能使用scipy.special.beta函数,因为它无法操纵张量(因为我的alpha和beta参数是由神经网络产生的)
我在这个领域不够专业,也许我的问题很愚蠢,但我真的很喜欢那里的解释。
非常感谢