标签: reinforcement-learning reward policy-gradient-descent
在策略梯度中,奖励函数被视为theta的自变量,如以下公式所示。 enter image description here
但是,我认为奖励依赖于轨迹,轨迹本身依赖于政策,政策本身也依赖于theta。换句话说,我认为奖励= R(P(theta))其中P是策略函数,R是所需的奖励函数,因此应应用链式规则对J(theta)进行梯度处理。 请告诉我我的哪个地方错了。 谢谢