如何计算DDPG中的确定性策略梯度?

时间:2020-02-10 18:41:56

标签: matlab deep-learning reinforcement-learning

我正在编写一个MATLAB脚本,该脚本使用“深度确定性策略梯度”来控制主动悬架系统(动态系统),但是我坚持要更新参与者网络。我阅读的所有示例和文章都使用诸如tf.gradients()之类的tensorflow库。但是,我需要确切地知道如何应用链式规则来计算图像中所示的确定性策略梯度,以在我的MATLAB代码中实现它。

image

0 个答案:

没有答案