标签: python tensorflow keras deep-learning reinforcement-learning
我正在尝试用Keras实现Deep Deterministic Policy Gradient。
这是算法:
DDPG algorithm
问题是步骤14。
在这里,我们有2个模型:演员π和评论家Q。 目的是以最大化Q(s,π(s))的方式修改π参数。由于没有目标值,因此无法使用Keras损失。
因此,问题是:是否可以使用Keras优化器来最大化函数Q(s,π(s))? [更多信息:是否可以优化函数f(π(s))?]
还要注意,Q也是一个模型,因此在优化中必须指定考虑的参数是π的参数。