使用Keras和Tensorflow 2实现深度确定性策略梯度

时间:2020-02-10 13:14:58

标签: keras deep-learning tensorflow2.0 reinforcement-learning

我正在尝试使用keras Model类在tensorflow 2中实现DDPG。我的实现是here。原始文件为here。我面临的问题是在步骤中评估梯度 dJ/dTheta = dQ / da * da / dTheta (我的实现中的第201行)。 Actor相对于其可训练变量的渐变显示为四个列表,因此我无法将其与评论家相对于动作的渐变相乘。该实现使用Gym的pendulum-v0环境。我在tensorflow梯度上苦苦挣扎,任何帮助将不胜感激

预先感谢

0 个答案:

没有答案