如何使用Keras最大化功能

时间:2019-04-28 06:02:17

标签: python tensorflow keras deep-learning reinforcement-learning

我正在尝试用Keras实现Deep Deterministic Policy Gradient

这是算法:

DDPG algorithm

问题是步骤14。

在这里,我们有2个模型:演员π和评论家Q。 目的是以最大化Q(s,π(s))的方式修改π参数。由于没有目标值,因此无法使用Keras损失。

因此,问题是:是否可以使用Keras优化器来最大化函数Q(s,π(s))? [更多信息:是否可以优化函数f(π(s))?]

还要注意,Q也是一个模型,因此在优化中必须指定考虑的参数是π的参数。

0 个答案:

没有答案