标签: keras deep-learning tensorflow2.0 reinforcement-learning
我正在尝试使用keras Model类在tensorflow 2中实现DDPG。我的实现是here。原始文件为here。我面临的问题是在步骤中评估梯度 dJ/dTheta = dQ / da * da / dTheta (我的实现中的第201行)。 Actor相对于其可训练变量的渐变显示为四个列表,因此我无法将其与评论家相对于动作的渐变相乘。该实现使用Gym的pendulum-v0环境。我在tensorflow梯度上苦苦挣扎,任何帮助将不胜感激
dJ/dTheta = dQ / da * da / dTheta
预先感谢