keras - 使用Keras和Tensorflow 2实现深度确定性策略梯度

使用Keras和Tensorflow 2实现深度确定性策略梯度

时间：2020-02-10 13:14:58

标签： keras deep-learning tensorflow2.0 reinforcement-learning

我正在尝试使用keras Model类在tensorflow 2中实现DDPG。我的实现是here。原始文件为here。我面临的问题是在步骤中评估梯度 dJ/dTheta = dQ / da * da / dTheta （我的实现中的第201行）。 Actor相对于其可训练变量的渐变显示为四个列表，因此我无法将其与评论家相对于动作的渐变相乘。该实现使用Gym的pendulum-v0环境。我在tensorflow梯度上苦苦挣扎，任何帮助将不胜感激

预先感谢

0 个答案:

没有答案

利用分布策略在Estimator中累积梯度
确定性环境-策略梯度
使用不确定性进行多任务学习-Keras实现
为什么多代理深度确定性策略梯度（MADDPG）运行缓慢并且仅从GPU中获取22％的费用？
Deepmid的trfl库中如何评估确定性策略梯度？
使用Keras和Tensorflow 2实现深度确定性策略梯度
如何计算DDPG中的确定性策略梯度？
使用tensorflow 2实现梯度惩罚损失
在OpenAI Gym中使用深度确定性策略梯度来解决连续动作的问题
如何在Tensorflow 2中实现小批量梯度下降？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？