我看到很多人在这里提出这个问题,但我没有看到可以执行的代码。我正在尝试进行两个操作,以获得dOuput / dInput并获得dOutput / dParameters。我试过了
# gradient method 1
jac_Action_wrt_Param = tf.pack([tf.concat(1, [tf.reshape(tf.gradients(action_output[:, idx], param)[0], [1, -1])
for param in learnable_param_list]) for idx in range(action_dim)],
axis=1, name='jac_Action_wrt_Param')
jac_Action_wrt_State = tf.pack(
[tf.gradients(action_output[:, idx], state_input)[0] for idx in range(action_dim)], axis=1,
name='jac_Action_wrt_State')
此处输入状态并输出动作。两种方法都给出了......我做错了什么?